Glossaire
Un glossaire complet des termes et concepts utilisés dans Rememberizer
Ce glossaire fournit des définitions pour les termes et concepts clés utilisés dans toute la documentation de Rememberizer. Utilisez-le comme référence lorsque vous rencontrez une terminologie inconnue.
Remarque : Ce glossaire représente la terminologie standardisée pour Rememberizer. Bien que vous puissiez rencontrer de légères variations dans la documentation, les termes et définitions fournis ici doivent être considérés comme la référence canonique.
A
Clé API : Un jeton d'authentification sécurisé utilisé pour accéder aux points de terminaison de l'API de Rememberizer de manière programmatique. Les clés API sont principalement utilisées pour l'accès au magasin de vecteurs et l'intégration des connaissances communes.
Origine de la demande autorisée : Un paramètre de sécurité qui spécifie quels domaines peuvent effectuer des requêtes API vers Rememberizer, limitant ainsi les attaques potentielles de falsification de requêtes intersites.
B
Opérations par lot : Traitement de plusieurs éléments (recherches, téléchargements, etc.) dans une seule demande pour améliorer l'efficacité. Rememberizer prend en charge les opérations par lot pour des charges de travail à fort volume.
Taille du lot : Le nombre d'éléments traités ensemble lors d'opérations telles que la migration, la recherche ou l'ingestion de documents, affectant les performances et l'utilisation des ressources.
C
Chunking : Le processus de division des documents en morceaux de taille optimale (généralement 512-2048 octets) avec des frontières qui se chevauchent pour préserver le contexte lors des recherches vectorielles.
Client ID : Un identifiant public délivré aux applications tierces qui permet l'autorisation OAuth2 avec Rememberizer.
Client Secret : Une clé privée délivrée avec un Client ID qui doit être gardée secrète et est utilisée pour authentifier l'application lors des flux OAuth2.
Collection-based Organization : La manière dont les magasins de vecteurs sont organisés dans Rememberizer, chaque magasin ayant sa propre collection isolée pour la gestion des données.
Common Knowledge : Informations publiées par les utilisateurs qui peuvent être accessibles par d'autres utilisateurs ou applications, créant une ressource de connaissance partagée. La Connaissance Commune est basée sur un Memento et peut être accessible via l'API. Parfois également appelée "Connaissance Partagée" dans l'interface utilisateur.
Context Windows : Le contenu environnant inclus avec les morceaux correspondants dans les résultats de recherche, contrôlé par les paramètres prev_chunks
et next_chunks
.
Cosine Similarity : Une mesure de similarité entre les vecteurs calculée en trouvant le cosinus de l'angle entre eux, utilisée comme métrique de recherche par défaut dans Rememberizer.
E
Modèle d'Intégration : Un modèle d'IA qui génère des embeddings vectoriels à partir de texte. Rememberizer prend en charge plusieurs modèles d'intégration, y compris text-embedding-3-large et text-embedding-3-small d'OpenAI.
Modèles d'Intégration d'Entreprise : Approches standardisées pour implémenter Rememberizer dans des environnements d'entreprise à grande échelle, y compris des conceptions architecturales pour la sécurité, l'évolutivité et la conformité.
G
Paramètres globaux : Configurations à l'échelle du système pour contrôler les autorisations et comportements par défaut dans toutes les applications connectées à Rememberizer.
H
HNSW (Hierarchical Navigable Small World) : Un algorithme d'indexation offrant une meilleure précision pour de grands ensembles de données au prix d'exigences en mémoire plus élevées, disponible en tant qu'option d'indexation dans les magasins de vecteurs Rememberizer.
I
Algorithme d'indexation : La méthode utilisée pour organiser les vecteurs afin d'assurer une récupération efficace. Rememberizer prend en charge les algorithmes IVFFLAT (par défaut) et HNSW.
IVFFLAT : Un algorithme d'indexation qui offre un bon équilibre entre la vitesse de recherche et la précision pour les bases de données vectorielles, utilisé par défaut dans Rememberizer.
K
Source de données : Les diverses origines des données dans Rememberizer, y compris les intégrations avec des plateformes comme Google Drive, Slack, Dropbox et Gmail. Également appelé "Source de connaissance" ou "Intégration" dans certains contextes.
L
Intégration LangChain : Fonctionnalité qui permet à Rememberizer d'être utilisé comme un récupérateur dans les applications LangChain, prenant en charge les systèmes RAG (Génération Augmentée par Récupération).
M
Memento : Un mécanisme de filtrage qui contrôle quelles connaissances sont partagées avec des applications tierces, permettant aux utilisateurs de partager sélectivement des fichiers, des documents ou des groupes de contenu spécifiques. Parfois appelé "Filtre Memento" dans l'interface utilisateur.
Intégration de la Mémoire : Une fonctionnalité permettant aux applications de stocker des informations précieuses dans Rememberizer pour une récupération ultérieure, avec des permissions de lecture/écriture configurables. Également appelé "Mémoire Partagée" dans certains contextes.
O
Authentification OAuth2 : Le protocole d'autorisation standard utilisé pour que les applications tierces accèdent aux données de Rememberizer avec le consentement de l'utilisateur, offrant un accès délégué sécurisé. Parfois abrégé en "OAuth" dans la documentation.
R
RAG (Génération Augmentée par Récupération) : Une technique qui combine des systèmes de récupération (comme Rememberizer) avec des modèles génératifs pour fournir des réponses plus précises et ancrées basées sur des connaissances spécifiques.
Lire Propre/Écrire Propre : Un niveau de permission où les applications ne peuvent accéder et modifier que leurs propres données de mémoire dans Rememberizer.
Lire Tout/Écrire Propre : Un niveau de permission où les applications peuvent lire les données de mémoire de toutes les applications mais ne peuvent modifier que leurs propres données de mémoire.
Réindexation : Le processus de reconstruction des index vectoriels après des changements significatifs pour améliorer les performances de recherche dans les Magasins de Vecteurs Rememberizer.
RememberizerRetriever : La classe de récupérateur LangChain spécifique qui interagit avec les capacités de recherche sémantique de Rememberizer.
Rememberizer GPT : Une application GPT personnalisée qui s'intègre à l'API de Rememberizer pour fournir un accès aux connaissances personnelles au sein de ChatGPT.
Magasin de Vecteurs Rememberizer : Un service de base de données vectorielle basé sur PostgreSQL avec l'extension pgvector qui gère le découpage, la vectorisation et le stockage des données textuelles. Les termes "Magasin de Vecteurs" et "Base de Données Vectorielle" sont utilisés de manière interchangeable dans la documentation de Rememberizer, "Magasin de Vecteurs" étant le terme préféré.
S
Search Metric: La méthode mathématique utilisée pour calculer la similarité entre les vecteurs. Rememberizer prend en charge la similarité cosinus (par défaut), le produit intérieur et la distance L2 (euclidienne). Les termes "distance", "similarité" et "correspondance" sont parfois utilisés de manière interchangeable pour désigner la façon dont les vecteurs se rapportent les uns aux autres.
Semantic Search: Fonctionnalité de recherche qui trouve du contenu en fonction du sens plutôt qu'en se basant uniquement sur des mots-clés, permettant des résultats conceptuellement liés même lorsque la terminologie diffère.
Shared Memory: Un système qui permet aux applications tierces de stocker et d'accéder aux données dans le compte Rememberizer d'un utilisateur, offrant une persistance à travers plusieurs applications.
V
Base de Données Vectorielle : Une base de données spécialisée optimisée pour stocker et récupérer efficacement des embeddings vectoriels, permettant des capacités de recherche sémantique.
Dimension Vectorielle : La taille des embeddings vectoriels (généralement 768-1536 nombres), affectant le détail et la nuance capturés dans la représentation sémantique.
Embeddings Vectoriels : Représentations numériques (listes de plusieurs centaines de nombres) qui capturent le sens sémantique du texte, permettant des comparaisons de similarité au-delà de la correspondance par mots-clés. Souvent appelés simplement "Embeddings" dans des contextes techniques.
Conventions d'en-tête API
Lors de l'utilisation des API de Rememberizer, les conventions d'en-tête suivantes doivent être suivies :
En-tête d'autorisation :
Authorization: Bearer YOUR_JWT_TOKEN
En-tête de clé API :
X-API-Key: YOUR_API_KEY
(en majuscules comme indiqué)En-tête de type de contenu :
Content-Type: application/json
Ressources Associées
Pour des explications plus approfondies des concepts clés :
Last updated