Rememberizer Docs
Se connecterS'inscrireContactez-nous
Français
Français
  • Pourquoi Rememberizer ?
  • Contexte
    • Qu'est-ce que les embeddings vectoriels et les bases de données vectorielles ?
    • Glossaire
    • Terminologie standardisée
  • Utilisation personnelle
    • Commencer
      • Rechercher vos connaissances
      • Accès au filtre de souvenirs
      • Connaissances communes
      • Gérer vos connaissances intégrées
  • Intégrations
    • Application Rememberizer
    • Intégration Rememberizer Slack
    • Intégration Rememberizer Google Drive
    • Intégration Rememberizer Dropbox
    • Intégration Rememberizer Gmail
    • Intégration Rememberizer Memory
    • Serveurs MCP Rememberizer
    • Gérer les applications tierces
  • Ressources pour les développeurs
    • Aperçu des développeurs
  • Options d'intégration
    • Enregistrement et utilisation des clés API
    • Enregistrement des applications Rememberizer
    • Autorisation des applications Rememberizer
    • Création d'un GPT Rememberizer
    • Intégration LangChain
    • Magasins de vecteurs
    • Talk-to-Slack l'application Web d'exemple
  • Intégration d'entreprise
    • Modèles d'intégration d'entreprise
  • Référence API
    • Accueil de la documentation API
    • Authentification
  • APIs principales
    • Rechercher des documents par similarité sémantique
    • Récupérer des documents
    • Récupérer le contenu des documents
    • Récupérer le contenu Slack
    • Mémoriser le contenu dans Rememberizer
  • Compte & Configuration
    • Récupérer les détails du compte utilisateur actuel
    • Lister les intégrations de sources de données disponibles
    • Mementos
    • Obtenir toutes les connaissances publiques ajoutées
  • APIs de stockage vectoriel
    • Documentation sur le stockage vectoriel
    • Obtenir des informations sur le stockage vectoriel
    • Obtenir une liste de documents dans un stockage vectoriel
    • Obtenir des informations sur un document
    • Ajouter un nouveau document texte à un stockage vectoriel
    • Télécharger des fichiers dans un stockage vectoriel
    • Mettre à jour le contenu d'un fichier dans un stockage vectoriel
    • Supprimer un document dans le stockage vectoriel
    • Rechercher des documents de stockage vectoriel par similarité sémantique
  • Ressources supplémentaires
    • Avis
      • Conditions d'utilisation
      • Politique de confidentialité
      • B2B
        • À propos de Reddit Agent
  • Versions
    • Notes de version Accueil
  • Sorties 2025
    • 25 avr. 2025
    • 18 avr. 2025
    • 11 avr. 2025
    • 4 avr. 2025
    • 28 mar. 2025
    • 21 mar. 2025
    • 14 mar. 2025
    • 17 janv. 2025
  • Sorties 2024
    • 27 déc. 2024
    • 20 déc. 2024
    • 13 déc. 2024
    • 6 déc. 2024
  • 29 nov. 2024
  • 22 nov. 2024
  • 15 nov. 2024
  • 8 nov. 2024
  • 1er nov. 2024
  • 25 oct. 2024
  • 18 oct. 2024
  • 11 oct. 2024
  • 4 oct. 2024
  • 27 sept. 2024
  • 20 sept. 2024
  • 13 sept. 2024
  • 16 août 2024
  • 9 août 2024
  • 2 août 2024
  • 26 juil. 2024
  • 12 juil. 2024
  • 28 juin 2024
  • 14 juin 2024
  • 31 mai 2024
  • 17 mai 2024
  • 10 mai 2024
  • 26 avr. 2024
  • 19 avr. 2024
  • 12 avr. 2024
  • 5 avr. 2024
  • 25 mars 2024
  • 18 mars 2024
  • 11 mars 2024
  • 4 mars 2024
  • 26 févr. 2024
  • 19 févr. 2024
  • 12 févr. 2024
  • 5 févr. 2024
  • 29 janv. 2024
  • 22 janv. 2024
  • 15 janv. 2024
  • Documentation LLM
    • Documentation LLM Prête de Rememberizer
Powered by GitBook
On this page
  • Comment Rememberizer utilise les embeddings vectoriels
  • Comprendre les embeddings vectoriels
  • Au-delà du texte : Embeddings multimodaux
  • Applications dans le monde réel
  • Comment la recherche vectorielle de Rememberizer diffère de la recherche par mots-clés
  • Ressources Techniques
  • Les Fondements de l'IA Moderne
  1. Contexte

Qu'est-ce que les embeddings vectoriels et les bases de données vectorielles ?

Pourquoi Rememberizer est plus qu'une simple base de données ou un moteur de recherche par mots-clés

PreviousContexteNextGlossaire

Last updated 20 days ago

Rememberizer utilise des embeddings vectoriels dans des bases de données vectorielles pour permettre des recherches de similarité sémantique au sein des sources de connaissances des utilisateurs. C'est une forme de récupération d'informations fondamentalement plus avancée et nuancée que de simplement rechercher des mots-clés dans le contenu via un moteur de recherche ou une base de données traditionnelle.

Comment Rememberizer utilise les embeddings vectoriels

Dans leur forme la plus avancée (comme utilisé par Rememberizer), les embeddings vectoriels sont créés par des modèles de langage avec des architectures similaires à celles des LLMs (Large Language Models) qui sous-tendent les modèles GPT d'OpenAI et le service ChatGPT, ainsi que des modèles/services de Google (Gemini), Anthropic (Claude), Meta (LLaMA), et d'autres.

Comprendre les embeddings vectoriels

À quoi ressemble un embedding vectoriel ? Considérez une coordonnée (x,y) en deux dimensions. Si elle représente une ligne de l'origine à ce point, nous pouvons la considérer comme une ligne avec une direction—en d'autres termes, un vecteur en deux dimensions.

Dans le contexte de Rememberizer, un embedding vectoriel est généralement une liste de plusieurs centaines de nombres (souvent 768, 1024 ou 1536) représentant un vecteur dans un espace de haute dimension. Cette liste de nombres peut représenter des poids dans un modèle Transformer qui définissent le sens d'une phrase telle que "Un éclair de ciel bleu." C'est fondamentalement la même représentation sous-jacente du sens utilisée dans des modèles comme GPT-4. En conséquence, un bon embedding vectoriel permet la même compréhension sophistiquée que nous voyons dans les modèles de langage IA modernes.

Au-delà du texte : Embeddings multimodaux

Les embeddings vectoriels peuvent représenter plus que du texte : ils peuvent également encoder d'autres types de données telles que des images ou du son. Avec des modèles correctement entraînés, vous pouvez comparer différents types de médias, permettant à un embedding vectoriel de texte d'être comparé à une image, ou vice versa.

Actuellement, Rememberizer permet des recherches dans le composant texte des documents et des connaissances des utilisateurs. Les capacités de recherche texte-à-image et image-à-texte sont sur la feuille de route de Rememberizer pour le développement futur.

Applications dans le monde réel

Les grandes entreprises technologiques exploitent les embeddings vectoriels dans leurs produits :

Comment la recherche vectorielle de Rememberizer diffère de la recherche par mots-clés

La recherche par mots-clés trouve des correspondances exactes ou des synonymes prédéterminés. En revanche, la recherche vectorielle de Rememberizer trouve du contenu qui est conceptuellement lié, même lorsque des terminologies différentes sont utilisées. Par exemple :

  • Une recherche par mots-clés pour "soins des chiens" pourrait manquer un document pertinent sur "entretien de la santé canine"

  • La recherche vectorielle de Rememberizer reconnaîtrait ces concepts comme sémantiquement similaires et retournerait les deux

Cette capacité rend Rememberizer particulièrement puissant pour récupérer des informations pertinentes à partir de diverses sources de connaissances.

Bientôt disponible : Visualisation du processus de recherche vectorielle

Ce diagramme illustrera le flux de travail complet de recherche sémantique dans Rememberizer :

  • Fragmentation et prétraitement des documents

  • Processus de génération d'embeddings vectoriels

  • Stockage dans une base de données vectorielle

  • Embedding de la requête de recherche

  • Calcul de correspondance de similarité

  • Comparaison côte à côte avec la recherche par mots-clés traditionnelle

Ressources Techniques

Pour comprendre en profondeur comment fonctionnent les embeddings vectoriels et les bases de données vectorielles :

Les Fondements de l'IA Moderne

Les technologies derrière les embeddings vectoriels ont évolué de manière significative au fil du temps :

Un aspect remarquable des modèles basés sur Transformer est leurs propriétés d'échelle—à mesure qu'ils utilisent plus de données et ont plus de paramètres, leur compréhension et leurs capacités s'améliorent de manière spectaculaire. Cette propriété d'échelle a été observée avec des modèles comme GPT-2 et a conduit à l'avancement rapide des capacités de l'IA.

Cela fait des embeddings vectoriels un choix naturel pour découvrir des connaissances pertinentes à inclure dans le contexte des invites des modèles d'IA. Les technologies sont complémentaires et conceptuellement liées. Pour cette raison, la plupart des fournisseurs de LLMs en tant que service produisent également des embeddings vectoriels en tant que service (par exemple : ou ).

Google utilise des embeddings vectoriels pour alimenter à la fois leur recherche textuelle (texte-à-texte) et leur recherche d'images (texte-à-image) ()

Meta (Facebook) a mis en œuvre des embeddings pour la recherche sur leur réseau social ()

Snapchat utilise des embeddings vectoriels pour comprendre le contexte et servir des publicités ciblées ()

Commencez par l'

Pinecone (un service de base de données vectorielle) propose une bonne

La bibliothèque FAISS de Meta : "FAISS : Une bibliothèque pour la recherche de similarité efficace et le clustering de vecteurs denses" par Johnson, Douze et Jégou (2017) fournit des informations complètes sur la recherche de similarité vectorielle efficace ()

Le document de 2017 "Attention Is All You Need" () a introduit l'architecture Transformer qui alimente les LLM modernes et les modèles d'embedding avancés

"Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality" (, ) a établi la théorie pour une recherche de similarité efficace dans des espaces de haute dimension

BERT (2018, ) a démontré la puissance de l'entraînement bidirectionnel pour les tâches de compréhension du langage

Des méthodes antérieures comme GloVe (2014, ) et Word2Vec (2013, ) ont posé les bases des embeddings de mots neuronaux

Pour des détails techniques sur l'implémentation et des conseils orientés développeurs sur l'utilisation des magasins de vecteurs avec Rememberizer, voir .

Les chercheurs de Google étaient à l'origine de l'architecture Transformer décrite dans "Attention Is All You Need" (), bien que de nombreuses organisations aient depuis construit et étendu ce travail fondamental.

l'endpoint d'embeddings de Together AI
les embeddings de texte et de code d'OpenAI
référence
référence
référence
aperçu de Hugging Face
introduction aux embeddings vectoriels
dépôt GitHub
référence
1998
2010
référence
référence
référence
Magasins de Vecteurs
référence de brevet
Visualisation d'un espace vectoriel multidimensionnel
Une visualisation d'un espace vectoriel multidimensionnel