ما هي تضمينات المتجهات وقواعد بيانات المتجهات؟

لماذا تعتبر Rememberizer أكثر من مجرد قاعدة بيانات أو محرك بحث عن الكلمات الرئيسية

تستخدم Rememberizer تمثيلات المتجهات في قواعد بيانات المتجهات لتمكين البحث عن التشابه الدلالي ضمن مصادر المعرفة الخاصة بالمستخدم. هذه طريقة أكثر تقدمًا وتعقيدًا لاسترجاع المعلومات مقارنةً بالبحث عن الكلمات الرئيسية في المحتوى من خلال محرك بحث تقليدي أو قاعدة بيانات.

كيف تستخدم Rememberizer تمثيلات المتجهات

في شكلها الأكثر تقدمًا (كما تستخدمه Rememberizer)، يتم إنشاء تمثيلات المتجهات بواسطة نماذج اللغة ذات الهياكل المشابهة لنماذج الذكاء الاصطناعي LLMs (نماذج اللغة الكبيرة) التي تدعم نماذج GPT من OpenAI وخدمة ChatGPT، بالإضافة إلى نماذج/خدمات من Google (Gemini)، وAnthropic (Claude)، وMeta (LLaMA)، وغيرها.

هذا يجعل تمثيلات المتجهات خيارًا طبيعيًا لاكتشاف المعرفة ذات الصلة التي يجب تضمينها في سياق مطالبات نماذج الذكاء الاصطناعي. التقنيات مكملة ومرتبطه من الناحية المفاهيمية. لهذا السبب، فإن معظم مقدمي خدمات LLMs كخدمة ينتجون أيضًا تمثيلات المتجهات كخدمة (على سبيل المثال: نقطة نهاية تمثيلات Together AI أو تمثيلات النص والرمز من OpenAI).

فهم تضمينات المتجهات

كيف تبدو تضمينة المتجهات؟ اعتبر نقطة إحداثية (x,y) في بعدين. إذا كانت تمثل خطًا من الأصل إلى هذه النقطة، يمكننا التفكير فيها كخط له اتجاه - بعبارة أخرى، متجه في بعدين.

في سياق Rememberizer، تضمينة المتجهات عادةً ما تكون قائمة من عدة مئات من الأرقام (غالبًا 768، 1024، أو 1536) تمثل متجهًا في فضاء عالي الأبعاد. يمكن أن تمثل هذه القائمة من الأرقام أوزانًا في نموذج Transformer تحدد المعنى في عبارة مثل "ومضة برق من العدم." هذه هي نفس التمثيل الأساسي للمعنى المستخدم في نماذج مثل GPT-4. نتيجة لذلك، تتيح تضمينة المتجهات الجيدة نفس الفهم المتقدم الذي نراه في نماذج اللغة الحديثة للذكاء الاصطناعي.

ما وراء النص: التضمينات متعددة الوسائط

يمكن أن تمثل التضمينات المتجهة أكثر من مجرد نص—يمكنها أيضًا ترميز أنواع أخرى من البيانات مثل الصور أو الصوت. مع النماذج المدربة بشكل صحيح، يمكنك المقارنة عبر أنواع الوسائط، مما يسمح بمقارنة تضمين متجه للنص بصورة، أو العكس.

حاليًا، يتيح Rememberizer عمليات البحث ضمن مكون النص في مستندات ومعرفة المستخدم. قدرات البحث من النص إلى الصورة ومن الصورة إلى النص موجودة في خارطة طريق Rememberizer للتطوير المستقبلي.

التطبيقات في العالم الحقيقي

تستفيد الشركات التكنولوجية الكبرى من تضمينات المتجهات في منتجاتها:

جوجل تستخدم تضمينات المتجهات لتعزيز كل من بحث النصوص (من نص إلى نص) وبحث الصور (من نص إلى صورة) (مرجع)
ميتا (فيسبوك) قامت بتنفيذ التضمينات في بحث شبكتها الاجتماعية (مرجع)
سناب شات تستخدم تضمينات المتجهات لفهم السياق وتقديم إعلانات مستهدفة (مرجع)

كيف يختلف بحث Rememberizer القائم على المتجهات عن البحث القائم على الكلمات الرئيسية

يجد البحث القائم على الكلمات الرئيسية المطابقات الدقيقة أو المرادفات المحددة مسبقًا. بالمقابل، يجد بحث Rememberizer القائم على المتجهات المحتوى الذي يرتبط مفهوميًا، حتى عند استخدام مصطلحات مختلفة. على سبيل المثال:

قد يفوت البحث القائم على الكلمات الرئيسية عن "رعاية الكلاب" وثيقة ذات صلة حول "صيانة صحة الكلاب"
سيعترف بحث Rememberizer القائم على المتجهات بهذه المفاهيم على أنها متشابهة دلاليًا ويعيد كلاهما

تجعل هذه القدرة Rememberizer قوية بشكل خاص لاسترجاع المعلومات ذات الصلة من مصادر المعرفة المتنوعة.

قريبًا: تصور عملية البحث القائم على المتجهات

ستوضح هذه المخططة سير العمل الكامل للبحث الدلالي في Rememberizer:

تقسيم الوثائق والمعالجة المسبقة
عملية توليد تضمين المتجهات
التخزين في قاعدة بيانات المتجهات
تضمين استعلام البحث
حساب تطابق التشابه
مقارنة جنبًا إلى جنب مع البحث التقليدي القائم على الكلمات الرئيسية

الموارد التقنية

لفهم كيفية عمل تضمينات المتجهات وقواعد بيانات المتجهات بعمق:

ابدأ مع نظرة عامة من Hugging Face
تقدم Pinecone (خدمة قاعدة بيانات المتجهات) مقدمة جيدة لتضمينات المتجهات
مكتبة FAISS من Meta: "FAISS: مكتبة للبحث الفعال عن التشابه والتجميع للمتجهات الكثيفة" من تأليف جونسون، دووز، وجيغو (2017) تقدم رؤى شاملة حول البحث الفعال عن تشابه المتجهات (مستودع GitHub)

أساس الذكاء الاصطناعي الحديث

تطورت التقنيات وراء تضمينات المتجهات بشكل كبير على مر الزمن:

قدمت الورقة البحثية لعام 2017 "الانتباه هو كل ما تحتاجه" (مرجع) بنية Transformer التي تدعم نماذج LLM الحديثة ونماذج التضمين المتقدمة
أسست "الجيران الأقرب التقريبي: نحو إزالة لعنة الأبعاد" (1998، 2010) النظرية للبحث الفعال عن التشابه في الفضاءات عالية الأبعاد
أظهرت BERT (2018، مرجع) قوة التدريب ثنائي الاتجاه لمهام فهم اللغة
وضعت الطرق السابقة مثل GloVe (2014، مرجع) وWord2Vec (2013، مرجع) الأساس لتضمينات الكلمات العصبية

للحصول على تفاصيل التنفيذ الفني وإرشادات موجهة للمطورين حول استخدام مخازن المتجهات مع Rememberizer، انظر مخازن المتجهات.

أحد الجوانب الملحوظة لنماذج Transformer هو خصائصها في التوسع - كلما استخدمت بيانات أكثر وكان لديها معلمات أكثر، تحسن فهمها وقدراتها بشكل كبير. تم ملاحظة هذه الخاصية في التوسع مع نماذج مثل GPT-2 وقد دفعت التقدم السريع في قدرات الذكاء الاصطناعي.

كان الباحثون في Google وراء بنية Transformer الأصلية الموصوفة في "الانتباه هو كل ما تحتاجه" (مرجع براءة الاختراع)، على الرغم من أن العديد من المنظمات قد بنت على هذا العمل الأساسي ووسعت منه منذ ذلك الحين.

Previousخلفية Nextمسرد

Last updated 5 months ago