ما هي تضمينات المتجهات وقواعد بيانات المتجهات؟
لماذا تعتبر Rememberizer أكثر من مجرد قاعدة بيانات أو محرك بحث عن الكلمات الرئيسية
Last updated
لماذا تعتبر Rememberizer أكثر من مجرد قاعدة بيانات أو محرك بحث عن الكلمات الرئيسية
Last updated
تستخدم Rememberizer تمثيلات المتجهات في قواعد بيانات المتجهات لتمكين البحث عن التشابه الدلالي ضمن مصادر المعرفة الخاصة بالمستخدم. هذه طريقة أكثر تقدمًا وتعقيدًا لاسترجاع المعلومات مقارنةً بالبحث عن الكلمات الرئيسية في المحتوى من خلال محرك بحث تقليدي أو قاعدة بيانات.
في شكلها الأكثر تقدمًا (كما تستخدمه Rememberizer)، يتم إنشاء تمثيلات المتجهات بواسطة نماذج اللغة ذات الهياكل المشابهة لنماذج الذكاء الاصطناعي LLMs (نماذج اللغة الكبيرة) التي تدعم نماذج GPT من OpenAI وخدمة ChatGPT، بالإضافة إلى نماذج/خدمات من Google (Gemini)، وAnthropic (Claude)، وMeta (LLaMA)، وغيرها.
كيف تبدو تضمينة المتجهات؟ اعتبر نقطة إحداثية (x,y) في بعدين. إذا كانت تمثل خطًا من الأصل إلى هذه النقطة، يمكننا التفكير فيها كخط له اتجاه - بعبارة أخرى، متجه في بعدين.
في سياق Rememberizer، تضمينة المتجهات عادةً ما تكون قائمة من عدة مئات من الأرقام (غالبًا 768، 1024، أو 1536) تمثل متجهًا في فضاء عالي الأبعاد. يمكن أن تمثل هذه القائمة من الأرقام أوزانًا في نموذج Transformer تحدد المعنى في عبارة مثل "ومضة برق من العدم." هذه هي نفس التمثيل الأساسي للمعنى المستخدم في نماذج مثل GPT-4. نتيجة لذلك، تتيح تضمينة المتجهات الجيدة نفس الفهم المتقدم الذي نراه في نماذج اللغة الحديثة للذكاء الاصطناعي.
يمكن أن تمثل التضمينات المتجهة أكثر من مجرد نص—يمكنها أيضًا ترميز أنواع أخرى من البيانات مثل الصور أو الصوت. مع النماذج المدربة بشكل صحيح، يمكنك المقارنة عبر أنواع الوسائط، مما يسمح بمقارنة تضمين متجه للنص بصورة، أو العكس.
حاليًا، يتيح Rememberizer عمليات البحث ضمن مكون النص في مستندات ومعرفة المستخدم. قدرات البحث من النص إلى الصورة ومن الصورة إلى النص موجودة في خارطة طريق Rememberizer للتطوير المستقبلي.
تستفيد الشركات التكنولوجية الكبرى من تضمينات المتجهات في منتجاتها:
يجد البحث القائم على الكلمات الرئيسية المطابقات الدقيقة أو المرادفات المحددة مسبقًا. بالمقابل، يجد بحث Rememberizer القائم على المتجهات المحتوى الذي يرتبط مفهوميًا، حتى عند استخدام مصطلحات مختلفة. على سبيل المثال:
قد يفوت البحث القائم على الكلمات الرئيسية عن "رعاية الكلاب" وثيقة ذات صلة حول "صيانة صحة الكلاب"
سيعترف بحث Rememberizer القائم على المتجهات بهذه المفاهيم على أنها متشابهة دلاليًا ويعيد كلاهما
تجعل هذه القدرة Rememberizer قوية بشكل خاص لاسترجاع المعلومات ذات الصلة من مصادر المعرفة المتنوعة.
قريبًا: تصور عملية البحث القائم على المتجهات
ستوضح هذه المخططة سير العمل الكامل للبحث الدلالي في Rememberizer:
تقسيم الوثائق والمعالجة المسبقة
عملية توليد تضمين المتجهات
التخزين في قاعدة بيانات المتجهات
تضمين استعلام البحث
حساب تطابق التشابه
مقارنة جنبًا إلى جنب مع البحث التقليدي القائم على الكلمات الرئيسية
لفهم كيفية عمل تضمينات المتجهات وقواعد بيانات المتجهات بعمق:
تطورت التقنيات وراء تضمينات المتجهات بشكل كبير على مر الزمن:
هذا يجعل تمثيلات المتجهات خيارًا طبيعيًا لاكتشاف المعرفة ذات الصلة التي يجب تضمينها في سياق مطالبات نماذج الذكاء الاصطناعي. التقنيات مكملة ومرتبطه من الناحية المفاهيمية. لهذا السبب، فإن معظم مقدمي خدمات LLMs كخدمة ينتجون أيضًا تمثيلات المتجهات كخدمة (على سبيل المثال: أو ).
جوجل تستخدم تضمينات المتجهات لتعزيز كل من بحث النصوص (من نص إلى نص) وبحث الصور (من نص إلى صورة) ()
ميتا (فيسبوك) قامت بتنفيذ التضمينات في بحث شبكتها الاجتماعية ()
سناب شات تستخدم تضمينات المتجهات لفهم السياق وتقديم إعلانات مستهدفة ()
ابدأ مع
تقدم Pinecone (خدمة قاعدة بيانات المتجهات)
مكتبة FAISS من Meta: "FAISS: مكتبة للبحث الفعال عن التشابه والتجميع للمتجهات الكثيفة" من تأليف جونسون، دووز، وجيغو (2017) تقدم رؤى شاملة حول البحث الفعال عن تشابه المتجهات ()
قدمت الورقة البحثية لعام 2017 "الانتباه هو كل ما تحتاجه" () بنية Transformer التي تدعم نماذج LLM الحديثة ونماذج التضمين المتقدمة
أسست "الجيران الأقرب التقريبي: نحو إزالة لعنة الأبعاد" (، ) النظرية للبحث الفعال عن التشابه في الفضاءات عالية الأبعاد
أظهرت BERT (2018، ) قوة التدريب ثنائي الاتجاه لمهام فهم اللغة
وضعت الطرق السابقة مثل GloVe (2014، ) وWord2Vec (2013، ) الأساس لتضمينات الكلمات العصبية
للحصول على تفاصيل التنفيذ الفني وإرشادات موجهة للمطورين حول استخدام مخازن المتجهات مع Rememberizer، انظر .
كان الباحثون في Google وراء بنية Transformer الأصلية الموصوفة في "الانتباه هو كل ما تحتاجه" ()، على الرغم من أن العديد من المنظمات قد بنت على هذا العمل الأساسي ووسعت منه منذ ذلك الحين.