ما هي تضمينات المتجهات وقواعد بيانات المتجهات؟
لماذا تعتبر Rememberizer أكثر من مجرد قاعدة بيانات أو محرك بحث عن الكلمات الرئيسية
تستخدم Rememberizer تمثيلات المتجهات في قواعد بيانات المتجهات لتمكين البحث عن التشابه الدلالي ضمن مصادر المعرفة الخاصة بالمستخدم. هذه طريقة أكثر تقدمًا وتعقيدًا لاسترجاع المعلومات مقارنةً بالبحث عن الكلمات الرئيسية في المحتوى من خلال محرك بحث تقليدي أو قاعدة بيانات.

كيف تستخدم Rememberizer تمثيلات المتجهات
في شكلها الأكثر تقدمًا (كما تستخدمه Rememberizer)، يتم إنشاء تمثيلات المتجهات بواسطة نماذج اللغة ذات الهياكل المشابهة لنماذج الذكاء الاصطناعي LLMs (نماذج اللغة الكبيرة) التي تدعم نماذج GPT من OpenAI وخدمة ChatGPT، بالإضافة إلى نماذج/خدمات من Google (Gemini)، وAnthropic (Claude)، وMeta (LLaMA)، وغيرها.
هذا يجعل تمثيلات المتجهات خيارًا طبيعيًا لاكتشاف المعرفة ذات الصلة التي يجب تضمينها في سياق مطالبات نماذج الذكاء الاصطناعي. التقنيات مكملة ومرتبطه من الناحية المفاهيمية. لهذا السبب، فإن معظم مقدمي خدمات LLMs كخدمة ينتجون أيضًا تمثيلات المتجهات كخدمة (على سبيل المثال: نقطة نهاية تمثيلات Together AI أو تمثيلات النص والرمز من OpenAI).
فهم تضمينات المتجهات
كيف تبدو تضمينة المتجهات؟ اعتبر نقطة إحداثية (x,y) في بعدين. إذا كانت تمثل خطًا من الأصل إلى هذه النقطة، يمكننا التفكير فيها كخط له اتجاه - بعبارة أخرى، متجه في بعدين.
في سياق Rememberizer، تضمينة المتجهات عادةً ما تكون قائمة من عدة مئات من الأرقام (غالبًا 768، 1024، أو 1536) تمثل متجهًا في فضاء عالي الأبعاد. يمكن أن تمثل هذه القائمة من الأرقام أوزانًا في نموذج Transformer تحدد المعنى في عبارة مثل "ومضة برق من العدم." هذه هي نفس التمثيل الأساسي للمعنى المستخدم في نماذج مثل GPT-4. نتيجة لذلك، تتيح تضمينة المتجهات الجيدة نفس الفهم المتقدم الذي نراه في نماذج اللغة الحديثة للذكاء الاصطناعي.
ما وراء النص: التضمينات متعددة الوسائط
يمكن أن تمثل التضمينات المتجهة أكثر من مجرد نص—يمكنها أيضًا ترميز أنواع أخرى من البيانات مثل الصور أو الصوت. مع النماذج المدربة بشكل صحيح، يمكنك المقارنة عبر أنواع الوسائط، مما يسمح بمقارنة تضمين متجه للنص بصورة، أو العكس.
حاليًا، يتيح Rememberizer عمليات البحث ضمن مكون النص في مستندات ومعرفة المستخدم. قدرات البحث من النص إلى الصورة ومن الصورة إلى النص موجودة في خارطة طريق Rememberizer للتطوير المستقبلي.
التطبيقات في العالم الحقيقي
تستفيد الشركات التكنولوجية الكبرى من تضمينات المتجهات في منتجاتها:
جوجل تستخدم تضمينات المتجهات لتعزيز كل من بحث النصوص (من نص إلى نص) وبحث الصور (من نص إلى صورة) (مرجع)
ميتا (فيسبوك) قامت بتنفيذ التضمينات في بحث شبكتها الاجتماعية (مرجع)
سناب شات تستخدم تضمينات المتجهات لفهم السياق وتقديم إعلانات مستهدفة (مرجع)
كيف يختلف بحث Rememberizer القائم على المتجهات عن البحث القائم على الكلمات الرئيسية
يجد البحث القائم على الكلمات الرئيسية المطابقات الدقيقة أو المرادفات المحددة مسبقًا. بالمقابل، يجد بحث Rememberizer القائم على المتجهات المحتوى الذي يرتبط مفهوميًا، حتى عند استخدام مصطلحات مختلفة. على سبيل المثال:
قد يفوت البحث القائم على الكلمات الرئيسية عن "رعاية الكلاب" وثيقة ذات صلة حول "صيانة صحة الكلاب"
سيعترف بحث Rememberizer القائم على المتجهات بهذه المفاهيم على أنها متشابهة دلاليًا ويعيد كلاهما
تجعل هذه القدرة Rememberizer قوية بشكل خاص لاسترجاع المعلومات ذات الصلة من مصادر المعرفة المتنوعة.
قريبًا: تصور عملية البحث القائم على المتجهات
ستوضح هذه المخططة سير العمل الكامل للبحث الدلالي في Rememberizer:
تقسيم الوثائق والمعالجة المسبقة
عملية توليد تضمين المتجهات
التخزين في قاعدة بيانات المتجهات
تضمين استعلام البحث
حساب تطابق التشابه
مقارنة جنبًا إلى جنب مع البحث التقليدي القائم على الكلمات الرئيسية
الموارد التقنية
لفهم كيفية عمل تضمينات المتجهات وقواعد بيانات المتجهات بعمق:
ابدأ مع نظرة عامة من Hugging Face
تقدم Pinecone (خدمة قاعدة بيانات المتجهات) مقدمة جيدة لتضمينات المتجهات
مكتبة FAISS من Meta: "FAISS: مكتبة للبحث الفعال عن التشابه والتجميع للمتجهات الكثيفة" من تأليف جونسون، دووز، وجيغو (2017) تقدم رؤى شاملة حول البحث الفعال عن تشابه المتجهات (مستودع GitHub)
أساس الذكاء الاصطناعي الحديث
تطورت التقنيات وراء تضمينات المتجهات بشكل كبير على مر الزمن:
قدمت الورقة البحثية لعام 2017 "الانتباه هو كل ما تحتاجه" (مرجع) بنية Transformer التي تدعم نماذج LLM الحديثة ونماذج التضمين المتقدمة
أظهرت BERT (2018، مرجع) قوة التدريب ثنائي الاتجاه لمهام فهم اللغة
للحصول على تفاصيل التنفيذ الفني وإرشادات موجهة للمطورين حول استخدام مخازن المتجهات مع Rememberizer، انظر مخازن المتجهات.
Last updated