ما هي تضمينات المتجهات وقواعد بيانات المتجهات؟
لماذا تعتبر Rememberizer أكثر من مجرد قاعدة بيانات أو محرك بحث عن الكلمات الرئيسية.
Last updated
لماذا تعتبر Rememberizer أكثر من مجرد قاعدة بيانات أو محرك بحث عن الكلمات الرئيسية.
Last updated
تستخدم Rememberizer تمثيلات المتجهات في قواعد بيانات المتجهات لتمكين عمليات البحث عن التشابه الدلالي ضمن مصادر المعرفة الخاصة بالمستخدم. هذه طريقة أكثر تقدمًا وتعقيدًا لاسترجاع المعلومات مقارنةً بالبحث عن الكلمات الرئيسية في المحتوى من خلال محرك بحث أو قاعدة بيانات.
في شكلها الأكثر تقدمًا (كما تستخدمه Rememberizer) يتم إنشاء تمثيلات المتجهات بواسطة نماذج اللغة ذات الهياكل المشابهة لنماذج الذكاء الاصطناعي LLMs (نماذج اللغة الكبيرة) التي تدعم نماذج gpt من OpenAI وخدمة ChatGPT بالإضافة إلى نماذج/خدمات من Google (Gemini) وAnthropic (Claude) وFacebook (LLama 2) وغيرها. لهذا السبب، من الطبيعي استخدام تمثيلات المتجهات لاكتشاف المعرفة ذات الصلة التي يجب تضمينها في سياق مطالبات نماذج الذكاء الاصطناعي. التقنيات مكملة ومتساوية إلى حد ما. لهذا السبب، فإن معظم مقدمي خدمات LLMs كخدمة سيقومون أيضًا بإنتاج تمثيلات المتجهات كخدمة (على سبيل المثال: مدونة من Together AI أو مدونة أخرى من OpenAI).
كيف يبدو تمثيل المتجه؟ اعتبر نقطة إحداثية (x,y) في بعدين. إذا كانت تمثل خطًا من الأصل إلى هذه النقطة، يمكننا التفكير فيها كخط له اتجاه، بعبارة أخرى متجه في بعدين. في سياقنا، سيكون تمثيل المتجه قائمة بشيء مثل 768 رقمًا تمثل متجهًا في فضاء ذي 768 بعدًا. في النهاية، يمكن أن تمثل هذه القائمة من الأرقام أوزانًا بين صفر وواحد في نموذج Transformer تحدد المعنى في عبارة مثل "ومضة برق من السماء." هذا هو في الأساس نفس التمثيل الأساسي للمعنى المستخدم في GPT-4 على سبيل المثال. نتيجة لذلك، يمكننا أن نتوقع أن يمكّن تمثيل المتجه الجيد نفس الفهم الرائع الظاهر الذي نراه في نماذج اللغة الحديثة للذكاء الاصطناعي.
من الجدير بالذكر أن تمثيلات المتجهات يمكن استخدامها لتمثيل أكثر من مجرد نص، ولكن أيضًا أنواع أخرى من البيانات مثل الصور أو الصوت. ومع نموذج مدرب بشكل صحيح، يمكن للمرء المقارنة عبر الوسائط، بحيث يمكن مقارنة تمثيل المتجه على كتلة نصية بصورة، أو العكس بالعكس. اليوم، تمكّن Rememberizer عمليات البحث ضمن المكون النصي فقط من مستندات ومعرفة المستخدم. لكن البحث من النص إلى الصورة ومن الصورة إلى النص موجود في خارطة الطريق. تستخدم Google تمثيلات المتجهات لتشغيل بحثها النصي (من نص إلى نص) وكذلك بحث الصور (من نص إلى صورة) (مرجع). لقد فكرت Facebook في استخدام التمثيلات لبحث شبكتها الاجتماعية (مرجع). تستخدم Snapchat تمثيلات المتجهات لفهم السياق من أجل تقديم الإعلان المناسب للمستخدم المناسب في الوقت المناسب (مرجع).
لفهم كيفية عمل تمثيل المتجهات وقواعد بيانات المتجهات بعمق، ابدأ بـ نظرة عامة من Hugging Face. لدى Pinecone (قاعدة بيانات تمثيل المتجهات كخدمة) نظرة عامة جيدة أيضًا نظرة عامة .
مصدر آخر رائع لفهم البحث والمعرفة في المتجهات هو ورقة Meta/Facebook والكود لمكتبة FAISS. "FAISS: مكتبة للبحث الفعال عن التشابه والتجميع للمتجهات الكثيفة" بواسطة Johnson وDouze وJégou (2017): تقدم FAISS نظرة شاملة على مكتبة مصممة للبحث الفعال عن التشابه والتجميع للمتجهات الكثيفة. تناقش طرق تحسين عمليات الفهرسة والبحث في قواعد بيانات المتجهات على نطاق واسع، بما في ذلك تلك المعتمدة على تقنيات Product Quantization. أفضل مكان لمعرفة المزيد عن هذا هو الوثائق جنبًا إلى جنب مع الكود على Github.
تأكد من النظر في ورقة يونيو 2017 التي بدأت ثورة الذكاء الاصطناعي التوليدي (genAI) "الاهتمام هو كل ما تحتاجه." (مرجع) والتي تقدم بنية Transformer وراء نماذج GPT وجميع LLMs التي تلتها من OpenAI وGoogle وMeta (Facebook) وNvidia وMicrosoft وIBM وAnthropic وMistral وSalesforce وxAI (إيلون ماسك) وStability AI وCohere والعديد من المصادر المفتوحة الأخرى. اعتبر أيضًا "الجيران الأقرب التقريبي: نحو إزالة لعنة الأبعاد" (مرجع 1998، مرجع 2010). تناقش هذه الأوراق النظرية وراء البحث عن الجيران الأقرب التقريبي (ANN) في الفضاءات عالية الأبعاد، وهو مفهوم أساسي في قواعد بيانات المتجهات لاسترجاع العناصر المماثلة بكفاءة.
أحد الأشياء المثيرة حول هذه النماذج المعتمدة على Transformer هو أنه كلما زادت البيانات التي استخدموها، زادت (عدد المعلمات) حجمها، زادت فهمها وقدراتها. لاحظت OpenAI هذا لأول مرة عندما قامت بتدريب نموذج GPT-2 الخاص بها. مدركةً لهذه الإمكانية، توقفت على الفور عن كونها منظمة غير ربحية موجهة نحو المصادر المفتوحة وأصبحت شركة ربحية مغلقة تركز على إنتاج GPT-3 وGPT-4 وواجهة المستخدم الشهيرة، ChatGPT. من المثير للاهتمام أن Google تمتلك براءة اختراع هذه التقنية -- كان باحثوها وراء Transformers وAttention Is All You Need (مرجع). تختلف ChatGPT قليلاً حول تصنيفي، حيث كتبت أن "السرد حول انتقال OpenAI من منظمة غير ربحية موجهة نحو المصادر المفتوحة إلى كيان ربحي مغلق يبسط تطورًا معقدًا. شمل تحول OpenAI التركيز على السلامة وتطوير الذكاء الاصطناعي المسؤول جنبًا إلى جنب مع جوانب التجارة. من الجدير بالذكر أيضًا أنه بينما أعطت OpenAI الأولوية لتطوير تقنيات ملكية مثل GPT-3 وما بعدها، فإنها تواصل التفاعل مع مجتمع البحث من خلال المنشورات والتعاون."
نماذج اللغة BERT تعتمد على Transformers وغالبًا ما تستخدم في محركات تمثيل المتجهات المتقدمة. تم تقديم ذلك في ورقة 2018 "BERT: التدريب المسبق للـ Transformers ثنائية الاتجاه لفهم اللغة" (مرجع). يمثل BERT (تمثيلات الترميز ثنائية الاتجاه من Transformers) تحولًا كبيرًا نحو النماذج المدربة مسبقًا التي يمكن ضبطها لمجموعة واسعة من مهام معالجة اللغة الطبيعية. استخدمه المبتكر في التدريب ثنائي الاتجاه وبنية Transformer لوضع معايير جديدة لأداء النموذج عبر العديد من المعايير. تم تقديم طرق مبتكرة سابقة لإنشاء تمثيلات المتجهات بواسطة GloVe (2014، جامعة ستانفورد) وWord2Vec (2013، Google). "GloVe: المتجهات العالمية لتمثيل الكلمات" (مرجع): اقترحت ورقة GloVe (المتجهات العالمية) نموذج انحدار لوغاريتمي عالمي جديد للتعلم غير الخاضع للإشراف لتمثيلات الكلمات، يجمع بين فوائد النهجين الرئيسيين للتمثيل: تحليل المصفوفات العالمية وطرق نافذة السياق المحلية. "تقدير فعال لتمثيلات الكلمات في الفضاء المتجهي" (مرجع): قدمت هذه الورقة Word2Vec، وهو نهج رائد لتوليد تمثيلات الكلمات. تعتبر نماذج Word2Vec، بما في ذلك نماذج Continuous Bag of Words (CBOW) وSkip-Gram، محورية في تطور تمثيلات الكلمات.