Qu'est-ce que les embeddings vectoriels et les bases de données vectorielles ?

Pourquoi Rememberizer est plus qu'une simple base de données ou un moteur de recherche par mots-clés

Rememberizer utilise des embeddings vectoriels dans des bases de données vectorielles pour permettre des recherches de similarité sémantique au sein des sources de connaissances des utilisateurs. C'est une forme de récupération d'informations fondamentalement plus avancée et nuancée que de simplement rechercher des mots-clés dans le contenu via un moteur de recherche ou une base de données traditionnelle.

Une visualisation d'un espace vectoriel multidimensionnel

Comment Rememberizer utilise les embeddings vectoriels

Dans leur forme la plus avancée (comme utilisé par Rememberizer), les embeddings vectoriels sont créés par des modèles de langage avec des architectures similaires à celles des LLMs (Large Language Models) qui sous-tendent les modèles GPT d'OpenAI et le service ChatGPT, ainsi que des modèles/services de Google (Gemini), Anthropic (Claude), Meta (LLaMA), et d'autres.

Cela fait des embeddings vectoriels un choix naturel pour découvrir des connaissances pertinentes à inclure dans le contexte des invites des modèles d'IA. Les technologies sont complémentaires et conceptuellement liées. Pour cette raison, la plupart des fournisseurs de LLMs en tant que service produisent également des embeddings vectoriels en tant que service (par exemple : l'endpoint d'embeddings de Together AI ou les embeddings de texte et de code d'OpenAI).

Comprendre les embeddings vectoriels

À quoi ressemble un embedding vectoriel ? Considérez une coordonnée (x,y) en deux dimensions. Si elle représente une ligne de l'origine à ce point, nous pouvons la considérer comme une ligne avec une direction—en d'autres termes, un vecteur en deux dimensions.

Dans le contexte de Rememberizer, un embedding vectoriel est généralement une liste de plusieurs centaines de nombres (souvent 768, 1024 ou 1536) représentant un vecteur dans un espace de haute dimension. Cette liste de nombres peut représenter des poids dans un modèle Transformer qui définissent le sens d'une phrase telle que "Un éclair de ciel bleu." C'est fondamentalement la même représentation sous-jacente du sens utilisée dans des modèles comme GPT-4. En conséquence, un bon embedding vectoriel permet la même compréhension sophistiquée que nous voyons dans les modèles de langage IA modernes.

Au-delà du texte : Embeddings multimodaux

Les embeddings vectoriels peuvent représenter plus que du texte : ils peuvent également encoder d'autres types de données telles que des images ou du son. Avec des modèles correctement entraînés, vous pouvez comparer différents types de médias, permettant à un embedding vectoriel de texte d'être comparé à une image, ou vice versa.

Actuellement, Rememberizer permet des recherches dans le composant texte des documents et des connaissances des utilisateurs. Les capacités de recherche texte-à-image et image-à-texte sont sur la feuille de route de Rememberizer pour le développement futur.

Applications dans le monde réel

Les grandes entreprises technologiques exploitent les embeddings vectoriels dans leurs produits :

Google utilise des embeddings vectoriels pour alimenter à la fois leur recherche textuelle (texte-à-texte) et leur recherche d'images (texte-à-image) (référence)
Meta (Facebook) a mis en œuvre des embeddings pour la recherche sur leur réseau social (référence)
Snapchat utilise des embeddings vectoriels pour comprendre le contexte et servir des publicités ciblées (référence)

Comment la recherche vectorielle de Rememberizer diffère de la recherche par mots-clés

La recherche par mots-clés trouve des correspondances exactes ou des synonymes prédéterminés. En revanche, la recherche vectorielle de Rememberizer trouve du contenu qui est conceptuellement lié, même lorsque des terminologies différentes sont utilisées. Par exemple :

Une recherche par mots-clés pour "soins des chiens" pourrait manquer un document pertinent sur "entretien de la santé canine"
La recherche vectorielle de Rememberizer reconnaîtrait ces concepts comme sémantiquement similaires et retournerait les deux

Cette capacité rend Rememberizer particulièrement puissant pour récupérer des informations pertinentes à partir de diverses sources de connaissances.

Bientôt disponible : Visualisation du processus de recherche vectorielle

Ce diagramme illustrera le flux de travail complet de recherche sémantique dans Rememberizer :

Fragmentation et prétraitement des documents
Processus de génération d'embeddings vectoriels
Stockage dans une base de données vectorielle
Embedding de la requête de recherche
Calcul de correspondance de similarité
Comparaison côte à côte avec la recherche par mots-clés traditionnelle

Ressources Techniques

Pour comprendre en profondeur comment fonctionnent les embeddings vectoriels et les bases de données vectorielles :

Commencez par l'aperçu de Hugging Face
Pinecone (un service de base de données vectorielle) propose une bonne introduction aux embeddings vectoriels
La bibliothèque FAISS de Meta : "FAISS : Une bibliothèque pour la recherche de similarité efficace et le clustering de vecteurs denses" par Johnson, Douze et Jégou (2017) fournit des informations complètes sur la recherche de similarité vectorielle efficace (dépôt GitHub)

Les Fondements de l'IA Moderne

Les technologies derrière les embeddings vectoriels ont évolué de manière significative au fil du temps :

Le document de 2017 "Attention Is All You Need" (référence) a introduit l'architecture Transformer qui alimente les LLM modernes et les modèles d'embedding avancés
"Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality" (1998, 2010) a établi la théorie pour une recherche de similarité efficace dans des espaces de haute dimension
BERT (2018, référence) a démontré la puissance de l'entraînement bidirectionnel pour les tâches de compréhension du langage
Des méthodes antérieures comme GloVe (2014, référence) et Word2Vec (2013, référence) ont posé les bases des embeddings de mots neuronaux

Pour des détails techniques sur l'implémentation et des conseils orientés développeurs sur l'utilisation des magasins de vecteurs avec Rememberizer, voir Magasins de Vecteurs.

Un aspect remarquable des modèles basés sur Transformer est leurs propriétés d'échelle—à mesure qu'ils utilisent plus de données et ont plus de paramètres, leur compréhension et leurs capacités s'améliorent de manière spectaculaire. Cette propriété d'échelle a été observée avec des modèles comme GPT-2 et a conduit à l'avancement rapide des capacités de l'IA.

Les chercheurs de Google étaient à l'origine de l'architecture Transformer décrite dans "Attention Is All You Need" (référence de brevet), bien que de nombreuses organisations aient depuis construit et étendu ce travail fondamental.

PreviousContexte NextGlossaire

Last updated 3 months ago