ما هي تضمينات المتجهات وقواعد بيانات المتجهات؟

لماذا تعتبر Rememberizer أكثر من مجرد قاعدة بيانات أو محرك بحث عن الكلمات الرئيسية.

تستخدم الذاكرة الإضمارات المتجهية في قواعد البيانات المتجهية لتمكين البحث عن التشابه الدلالي داخل مصادر المعرفة للمستخدم. هذا هو شكل أكثر تقدمًا ودقة من استرجاع المعلومات مقارنة ببحث بسيط عن الكلمات الرئيسية في المحتوى من خلال محرك البحث أو قاعدة البيانات.

في أكثرها تقدمًا (كما تستخدمه الذاكرة)، يتم إنشاء الإضمارات المتجهية بواسطة نماذج اللغة التي تشبه في تصميماتها نماذج AI LLMs (Large Language Models) التي تدعم نماذج gpt من شركة OpenAI وخدمة ChatGPT، بالإضافة إلى النماذج/ الخدمات من Google (جمني)، وAnthropic (كلود)، وFacebook (Llama 2) وغيرهم. لهذا السبب، فإنه من الطبيعي استخدام الإضمارات المتجهية لاكتشاف المعرفة ذات الصلة لتضمينها في سياق المواضع الخاصة بنموذج الذكاء الصناعي. التكنولوجيات متكاملة ومعادلة إلى حد ما. لهذا السبب، معظم مقدمي خدمات LLMs سوف ينتجون أيضًا الإضمارات المتجهية كخدمة (كمثال: منشور من Together AI أو منشور آخر من OpenAI).

كيف تبدو الإضمار المتجهية؟ خذ بعين الاعتبار تسلسمات (x,y) في بُعدين. إذا كان يمثل خطًا من الأصل إلى هذه النقطة، يمكننا التفكير فيه على أنه خط مع اتجاه، أو بعبارة أخرى متجه في بُعدَين. في سياقنا، ستكون الإضمار المتجهية عبارة عن قائمة تحتوي على حوالي 768 رقمًا تُمثل متجهًا في فضاء ذو 768 بُعدًا. في النهاية، يمكن أن تمثل هذه القائمة من الأرقام أوزانًا بين الصفر والواحد في نموذج Transformer الذي يُحدد المعنى في عبارة مثل "صاعقة من السماء الصافية". هذا هو نفس التمثيل الأساسي للمعنى المستخدم في GPT-4 كمثال.نتيجة لذلك، يمكننا أن نتوقع أن تسمح الإضمار المتجهية الجيدة بنفس الفهم الرائع الظاهر الذي نراه في نماذج اللغة الحديثة للذكاء الاصطناعي.

من الجدير بالذكر أن الإضمار المتجهية يمكن استخدامها لتمثيل أكثر من مجرد نص، ولكن أيضًا أنواع أخرى من البيانات مثل الصور أو الصوت. ومع نموذج مدرب بشكل صحيح، يمكن المقارنة عبر الوسائط المتعددة، بحيث يمكن مقارنة الإضمار المتجهية على كتلة من النص مع صورة، أو العكس. اليوم، تمكن الذاكرة البحث ضمن الجزء النصي فقط من مستندات المستخدم والمعرفة. لكن بحث النص إلى الصورة والبحث من الصورة إلى النص أمر قائم في الخريطة الطريقية. تستخدم جوجل الإضمار المتجهية لتشغيل بحث النص الخاص بها (نص-إلى-نص) وأيضًا بحث الصور (نص-إلى-صورة) (المرجع). لقد فكر فيسبوك في استخدام الإضمار لبحثهم في شبكة الأجتماعية (المرجع). تستخدم سناب شات الإضمار المتجهية لفهم السياق من أجل تقديم الإعلان المناسب للمستخدم المناسب في الوقت المناسب (المرجع).

لفهم بشكل عميق كيف تعمل الإضمار المتجهية وقواعد البيانات المتجهية، ابدأ بالنظرة العامة من شركة Hugging Face. Pinecone (قاعدة بيانات الإضمار المتجهية كخدمة) لديها نظرة عامة جيدة أيضًا.

مصدر آخر رائع لفهم البحث والمعرفة في المتجهات هو الورقة البحثية والكود لمكتبة FAISS من Meta/Facebook. "FAISS: A Library for Efficient Similarity Search and Clustering of Dense Vectors" بواسطة Johnson, Douze, and Jégou (2017): توفر FAISS نظرة شاملة عن مكتبة مصممة للبحث الفعال عن التشابه والتجميع للمتجهات الكثيفة. وتناقش طرق لتحسين عمليات الفهرسة والبحث في قواعد البيانات المتجهية ذات الحجم الكبير، بما في ذلك تلك التي تستند إلى الكمية المنتجة. أفضل مكان لمعرفة المزيد عن هذا هو الوثائق بالإضافة إلى الشيفرة المصدرية على Github.

تأكد من النظر في ورقة يونيو 2017 التي بدأت ثورة genAI (الذكاء الاصطناعي المولد)، "الانتباه هو كل ما تحتاجه." (المرجع) والتي تقدم بنية Transformer الأساسية وراء نماذج GPT وجميع LLMs التي تأتي من OpenAI، Google، Meta (Facebook)، Nvidia، Microsoft، IBM، Anthropic، Mistral، Salesforce، xAI (Elon Musk)، Stability AI, Cohere، والعديد من المصادر المفتوحة الأخرى. أخذ بعين الاعتبار أيضًا، "أقرب الجيران التقريبي: نحو إزالة لعنة الأبعاد" (المرجع 1998, المرجع 2010). تبحث هذه الأوراق النظرية وراء بحث الجيران التقريبي (ANN) في الفضاءات ذات الأبعاد العالية، وهي مفهوم أساسي في قواعد البيانات المتجهية لاسترجاع العناصر المشابهة بكفاءة.

ما يثير الإثارة حول هذه النماذج المعتمدة على Transformers هو أنه كلما زادت البيانات التي استخدمت، زاد حجمها (مزيد من المعلمات)، زاد فهمها وقدراتها. لاحظت OpenAI هذا عندما قامت بتدريب نموذجها GPT-2. عندما أدركت هذا الإمكانية، أوقفت على الفور كونها جمعية غير ربحية تهتم بالمصدر المفتوح وأصبحت شركة تجارية تهتم بالمصدر المغلق تعمل على إنتاج GPT-3، GPT-4 وواجهتها الأمامية الشهيرة والتي تدعى ChatGPT. الأمر المثير للاهتمام، جوجل تملك أحد البراءات على هذه التكنولوجيا-- لقد كانت الباحثين لديها وراء Transformers والانتباه هو كل ما تحتاجه (المرجع). يختلف ChatGPT قليلاً عن تقييمي، بكتابة أن "السرد حول انتقال OpenAI من كيان غير ربحي موجه نحو المصدر المفتوح إلى كيان تجاري موجه نحو المصدر المغلق يبسط التطور المعقد. شهد انتقال OpenAI تركيزًا على السلامة وتطوير الذكاء الاصطناعي المسؤول جنبًا إلى جنب مع جوانب التجارة. ومن الجدير بالذكر أيضًا أنه بينما أولت OpenAI الأولوية لتطوير تكنولوجيا حصرية مثل GPT-3 وما بعدها، فإنها تستمر في التفاعل مع مجتمع البحث من خلال النشرات والتعاون".

تعتمد نماذج اللغة BERT على Transformers وتُستخدم غالبًا في محركات الإضمار المتجهية المتقدمة. تم تقديم هذا في ورقة عام 2018 "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" (المرجع). قام BERT (Bidirectional Encoder Representations from Transformers) بتوجيه تحول كبير نحو النماذج المعتمدة على التدريب المسبق والتي يمكن تعديلها بشكل دقيق لمجموعة واسعة من مهام المعالجة الطبيعية للغة. استخدامه الابتكاري للتدريب في الاتجاهين وبنية التحويلة عقدت معايير جديدة للأداء النموذجي عبر العديد من المعايير. تم تقديم أساليب مبتكرة أقدم لإنشاء الإضمار المتجهية بواسطة GloVe (2014، ستانفورد)، Word2Vec (2013، جوجل). "GloVe: Global Vectors for Word Representation" (المرجع): قدمت ورقة GloVe ( Global Vectors) نموذج جديد لخط الانحدار العالمي لتعلم تمثيل الكلمات بدون إشراف، وذلك بجمع فوائد النهج الرئيسيين للإضمار: تحليل القياس العالمي وطرق نافذة السياق المحلي. "تقدير فعال لتمثيلات الكلمات في المساحة المتجهية" (المرجع): قدمت هذه الأوراق Word2Vec، وهو نهج رائد لتوليد الإضمار المتجهية للكلمات. تعتبر نماذج Word2Vec، بما في ذلك نماذج Continuous Bag of Words (CBOW) وSkip-Gram، هي حجر الزاوية في تطور تمثيلات الكلمات المتجهية.

Last updated