ما هي تضمينات المتجهات وقواعد بيانات المتجهات؟
لماذا تعتبر Rememberizer أكثر من مجرد قاعدة بيانات أو محرك بحث عن الكلمات الرئيسية.
Last updated
لماذا تعتبر Rememberizer أكثر من مجرد قاعدة بيانات أو محرك بحث عن الكلمات الرئيسية.
Last updated
تستخدم Rememberizer تمثيلات المتجهات في قواعد بيانات المتجهات لتمكين عمليات البحث عن التشابه الدلالي ضمن مصادر المعرفة الخاصة بالمستخدمين. هذه طريقة أكثر تقدمًا وتعقيدًا لاسترجاع المعلومات مقارنةً بالبحث عن الكلمات الرئيسية في المحتوى من خلال محرك بحث أو قاعدة بيانات.
في شكلها الأكثر تقدمًا (كما تستخدمه Rememberizer) يتم إنشاء تمثيلات المتجهات بواسطة نماذج اللغة ذات الهياكل المشابهة لنماذج الذكاء الاصطناعي LLMs (نماذج اللغة الكبيرة) التي تدعم نماذج gpt من OpenAI وخدمة ChatGPT بالإضافة إلى نماذج/خدمات من Google (Gemini) وAnthropic (Claude) وFacebook (LLama 2) وغيرها. لهذا السبب، من الطبيعي استخدام تمثيلات المتجهات لاكتشاف المعرفة ذات الصلة التي يجب تضمينها في سياق مطالبات نماذج الذكاء الاصطناعي. التقنيات تكمل بعضها البعض وتعتبر متكافئة إلى حد ما. لهذا السبب، فإن معظم مزودي LLMs كخدمة سيقومون أيضًا بإنتاج تمثيلات المتجهات كخدمة (على سبيل المثال: مدونة من Together AI أو مدونة أخرى من OpenAI).
كيف يبدو تمثيل المتجهات؟ اعتبر نقطة إحداثية (x,y) في بعدين. إذا كانت تمثل خطًا من الأصل إلى هذه النقطة، يمكننا التفكير فيها كخط له اتجاه، بعبارة أخرى متجه في بعدين. في سياقنا، سيكون تمثيل المتجهات عبارة عن قائمة من شيء مثل 768 رقمًا تمثل متجهًا في فضاء ذي 768 بعدًا. في النهاية، يمكن أن تمثل هذه القائمة من الأرقام أوزانًا بين صفر وواحد في نموذج Transformer تحدد المعنى في عبارة مثل "ومضة برق من العدم." هذا هو في الأساس نفس التمثيل الأساسي للمعنى المستخدم في GPT-4 على سبيل المثال. نتيجة لذلك، يمكننا أن نتوقع أن يمكّن تمثيل المتجهات الجيد نفس الفهم الرائع الظاهر الذي نراه في نماذج اللغة الحديثة للذكاء الاصطناعي.
من الجدير بالذكر أن تمثيلات المتجهات يمكن استخدامها لتمثيل أكثر من مجرد نص، ولكن أيضًا أنواع أخرى من البيانات مثل الصور أو الصوت. ومع نموذج مدرب بشكل صحيح، يمكن للمرء المقارنة عبر الوسائط، بحيث يمكن مقارنة تمثيل المتجهات على كتلة نصية بصورة، أو العكس بالعكس. اليوم، تمكّن Rememberizer عمليات البحث ضمن مكون النص فقط من مستندات ومعرفة المستخدمين. ولكن البحث من نص إلى صورة ومن صورة إلى نص موجود في خارطة الطريق. تستخدم Google تمثيلات المتجهات لتشغيل بحثها النصي (من نص إلى نص) وكذلك بحث الصور (من نص إلى صورة) (مرجع). لقد فكرت Facebook في استخدام التمثيلات لبحث شبكتها الاجتماعية (مرجع). تستخدم Snapchat تمثيلات المتجهات لفهم السياق من أجل تقديم الإعلان المناسب للمستخدم المناسب في الوقت المناسب (مرجع).
لفهم كيفية عمل تمثيل المتجهات وقواعد بيانات المتجهات بعمق، ابدأ بـ نظرة عامة من Hugging Face. لدى Pinecone (قاعدة بيانات تمثيل المتجهات كخدمة) نظرة عامة جيدة أيضًا نظرة عامة .
مصدر رائع آخر لفهم البحث والمعرفة في المتجهات هو ورقة Meta/Facebook والكود لمكتبة FAISS. "FAISS: مكتبة للبحث عن التشابه الفعال والتجميع للمتجهات الكثيفة" بواسطة Johnson وDouze وJégou (2017): تقدم FAISS نظرة شاملة على مكتبة مصممة للبحث الفعال عن التشابه والتجميع للمتجهات الكثيفة. تناقش الطرق لتحسين عمليات الفهرسة والبحث في قواعد بيانات المتجهات الكبيرة، بما في ذلك تلك المعتمدة على تقنيات Product Quantization. أفضل مكان لمعرفة المزيد عن هذا هو الوثائق جنبًا إلى جنب مع الكود على Github.
تأكد من النظر في ورقة يونيو 2017 التي بدأت ثورة genAI (الذكاء الاصطناعي التوليدي)، "الاهتمام هو كل ما تحتاجه." (مرجع) التي تقدم هيكل Transformer وراء نماذج GPT وجميع LLMs التي تلتها من OpenAI وGoogle وMeta (Facebook) وNvidia وMicrosoft وIBM وAnthropic وMistral وSalesforce وxAI (إيلون ماسك) وStability AI وCohere والعديد من المصادر المفتوحة الأخرى. اعتبر أيضًا، "الجيران الأقرب التقريبي: نحو إزالة لعنة الأبعاد" (مرجع 1998، مرجع 2010). تناقش هذه الأوراق النظرية وراء البحث عن الجيران الأقرب التقريبي (ANN) في الفضاءات عالية الأبعاد، وهو مفهوم أساسي في قواعد بيانات المتجهات لاسترجاع العناصر المماثلة بكفاءة.
أحد الأشياء المثيرة حول هذه النماذج المعتمدة على Transformer هو أنه كلما زادت البيانات التي استخدموها، زادت (المزيد من المعلمات) حجمها، زادت فهمها وقدراتها. لاحظت OpenAI ذلك لأول مرة عندما دربت نموذج GPT-2 الخاص بها. مدركةً لهذه الإمكانية، توقفت على الفور عن كونها منظمة غير ربحية موجهة نحو المصادر المفتوحة وأصبحت شركة مغلقة الربح تركز على إنتاج GPT-3 وGPT-4 وواجهة المستخدم الشهيرة، ChatGPT. من المثير للاهتمام أن Google تمتلك براءة اختراع هذه التكنولوجيا - كان باحثوها وراء Transformers وAttention Is All You Need (مرجع). تختلف ChatGPT قليلاً حول توصيفي، حيث كتبت أن "السرد حول انتقال OpenAI من منظمة غير ربحية موجهة نحو المصادر المفتوحة إلى كيان مغلق الربح يبسط تطورًا معقدًا. شمل تحول OpenAI تركيزًا على السلامة وتطوير الذكاء الاصطناعي المسؤول جنبًا إلى جنب مع جوانب التجارة. من الجدير بالذكر أيضًا أنه بينما أولت OpenAI الأولوية لتطوير التكنولوجيا الملكية مثل GPT-3 وما بعده، فإنها تواصل التفاعل مع مجتمع البحث من خلال المنشورات والتعاون."
تستند نماذج اللغة BERT إلى Transformers وغالبًا ما تستخدم في محركات تمثيل المتجهات المتقدمة. تم تقديم هذا في ورقة 2018 "BERT: التدريب المسبق للمتجهات الثنائية العميقة لفهم اللغة" (مرجع). يمثل BERT (تمثيلات المشفرات الثنائية من Transformers) تحولًا كبيرًا نحو النماذج المدربة مسبقًا التي يمكن ضبطها لمجموعة واسعة من مهام معالجة اللغة الطبيعية. استخدمه المبتكر في التدريب الثنائي وهندسة Transformer وضع معايير جديدة لأداء النماذج عبر العديد من المعايير. تم تقديم طرق مبتكرة سابقة لإنشاء تمثيلات المتجهات من قبل GloVe (2014، جامعة ستانفورد) وWord2Vec (2013، Google). "GloVe: المتجهات العالمية لتمثيل الكلمات" (مرجع): اقترحت ورقة GloVe (المتجهات العالمية) نموذج انحدار لوغاريتمي عالمي جديد للتعلم غير المراقب لتمثيلات الكلمات، مما يجمع بين فوائد النهجين الرئيسيين للتمثيل: تحليل المصفوفة العالمية وطرق نافذة السياق المحلية. "تقدير فعال لتمثيلات الكلمات في الفضاء المتجهي" (مرجع): قدمت هذه الورقة Word2Vec، وهو نهج رائد لتوليد تمثيلات الكلمات. تعتبر نماذج Word2Vec، بما في ذلك نماذج حقيبة الكلمات المستمرة (CBOW) ونماذج Skip-Gram، محورية في تطور تمثيلات الكلمات.