Glosario
Un glosario completo de términos y conceptos utilizados en Rememberizer
Este glosario proporciona definiciones para términos y conceptos clave utilizados en toda la documentación de Rememberizer. Úsalo como referencia cuando encuentres terminología desconocida.
Nota: Este glosario representa la terminología estandarizada para Rememberizer. Aunque puedes encontrar ligeras variaciones en la documentación, los términos y definiciones proporcionados aquí deben considerarse la referencia canónica.
A
API Key: Un token de autenticación seguro utilizado para acceder a los puntos finales de la API de Rememberizer de manera programática. Las claves API se utilizan principalmente para el acceso al almacenamiento de vectores y la integración de conocimiento común.
Authorized Request Origin: Una configuración de seguridad que especifica qué dominios pueden realizar solicitudes API a Rememberizer, limitando los posibles ataques de falsificación de solicitudes entre sitios.
B
Operaciones por Lotes: Procesamiento de múltiples elementos (búsquedas, cargas, etc.) en una sola solicitud para mejorar la eficiencia. Rememberizer admite operaciones por lotes para cargas de trabajo de alto volumen.
Tamaño del Lote: El número de elementos procesados juntos durante operaciones como migración, búsqueda o ingestión de documentos, que afecta el rendimiento y el uso de recursos.
C
Chunking: El proceso de dividir documentos en piezas de tamaño óptimo (típicamente de 512 a 2048 bytes) con límites superpuestos para preservar el contexto durante las búsquedas vectoriales.
Client ID: Un identificador público emitido a aplicaciones de terceros que permite la autorización OAuth2 con Rememberizer.
Client Secret: Una clave privada emitida con un Client ID que debe mantenerse segura y se utiliza para autenticar la aplicación durante los flujos OAuth2.
Collection-based Organization: La forma en que se organizan los almacenes vectoriales en Rememberizer, con cada almacén teniendo su propia colección aislada para la gestión de datos.
Common Knowledge: Información publicada por los usuarios que puede ser accedida por otros usuarios o aplicaciones, creando un recurso de conocimiento compartido. El Conocimiento Común se basa en un Memento y puede ser accedido a través de la API. También se refiere a veces como "Conocimiento Compartido" en la interfaz de usuario.
Context Windows: El contenido circundante incluido con los fragmentos coincidentes en los resultados de búsqueda, controlado por los parámetros prev_chunks
y next_chunks
.
Cosine Similarity: Una medida de similitud entre vectores calculada al encontrar el coseno del ángulo entre ellos, utilizada como la métrica de búsqueda predeterminada en Rememberizer.
E
Modelo de Embedding: Un modelo de IA que genera embeddings vectoriales a partir de texto. Rememberizer admite varios modelos de embedding, incluidos text-embedding-3-large y text-embedding-3-small de OpenAI.
Patrones de Integración Empresarial: Enfoques estandarizados para implementar Rememberizer en entornos empresariales a gran escala, incluidos diseños arquitectónicos para seguridad, escalabilidad y cumplimiento.
G
Configuraciones Globales: Configuraciones a nivel del sistema para controlar los permisos y comportamientos predeterminados en todas las aplicaciones conectadas en Rememberizer.
H
HNSW (Mundo Pequeño Navegable Jerárquico): Un algoritmo de indexación que ofrece mejor precisión para grandes conjuntos de datos a costa de mayores requisitos de memoria, disponible como una opción de indexación en los Almacenes de Vectores de Rememberizer.
I
Algoritmo de Indexación: El método utilizado para organizar vectores para una recuperación eficiente. Rememberizer soporta los algoritmos IVFFLAT (predeterminado) y HNSW.
IVFFLAT: Un algoritmo de indexación que proporciona un buen equilibrio entre velocidad de búsqueda y precisión para bases de datos vectoriales, utilizado como predeterminado en Rememberizer.
K
Fuente de Datos: Los diversos orígenes de datos en Rememberizer, incluidas las integraciones con plataformas como Google Drive, Slack, Dropbox y Gmail. También se conoce como "Fuente de Conocimiento" o "Integración" en algunos contextos.
L
Integración de LangChain: Funcionalidad que permite que Rememberizer se utilice como un recuperador en aplicaciones de LangChain, apoyando sistemas de RAG (Generación Aumentada por Recuperación).
M
Memento: Un mecanismo de filtrado que controla qué conocimiento se comparte con aplicaciones de terceros, permitiendo a los usuarios compartir selectivamente archivos, documentos o grupos de contenido específicos. A veces se refiere como "Filtro Memento" en la interfaz de usuario.
Integración de Memoria: Una función que permite a las aplicaciones almacenar información valiosa en Rememberizer para su recuperación posterior, con permisos de lectura/escritura configurables. También se refiere como "Memoria Compartida" en algunos contextos.
O
Autenticación OAuth2: El protocolo de autorización estándar utilizado para que aplicaciones de terceros accedan a los datos de Rememberizer con el consentimiento del usuario, proporcionando acceso delegado seguro. A veces se abrevia como "OAuth" en la documentación.
R
RAG (Generación Aumentada por Recuperación): Una técnica que combina sistemas de recuperación (como Rememberizer) con modelos generativos para proporcionar respuestas más precisas y fundamentadas basadas en conocimientos específicos.
Leer Propio/Escribir Propio: Un nivel de permiso donde las aplicaciones solo pueden acceder y modificar sus propios datos de memoria en Rememberizer.
Leer Todo/Escribir Propio: Un nivel de permiso donde las aplicaciones pueden leer datos de memoria de todas las aplicaciones, pero solo pueden modificar sus propios datos de memoria.
Reindexación: El proceso de reconstruir índices vectoriales después de cambios significativos para mejorar el rendimiento de búsqueda en los Almacenes Vectoriales de Rememberizer.
RememberizerRetriever: La clase de recuperador específica de LangChain que se conecta con las capacidades de búsqueda semántica de Rememberizer.
Rememberizer GPT: Una aplicación GPT personalizada que se integra con la API de Rememberizer para proporcionar acceso a conocimientos personales dentro de ChatGPT.
Rememberizer Vector Store: Un servicio de base de datos vectorial basado en PostgreSQL con la extensión pgvector que maneja la segmentación, vectorización y almacenamiento de datos de texto. Los términos "Almacén Vectorial" y "Base de Datos Vectorial" se utilizan indistintamente en la documentación de Rememberizer, siendo "Almacén Vectorial" el término preferido.
S
Métrica de Búsqueda: El método matemático utilizado para calcular la similitud entre vectores. Rememberizer soporta similitud coseno (por defecto), producto interno y distancia L2 (Euclidiana). Los términos "distancia", "similitud" y "coincidencia" a veces se utilizan indistintamente para referirse a cuán estrechamente se relacionan los vectores entre sí.
Búsqueda Semántica: Funcionalidad de búsqueda que encuentra contenido basado en el significado en lugar de solo en palabras clave, permitiendo resultados conceptualmente relacionados incluso cuando la terminología difiere.
Memoria Compartida: Un sistema que permite a aplicaciones de terceros almacenar y acceder a datos en la cuenta de Rememberizer de un usuario, proporcionando persistencia a través de múltiples aplicaciones.
V
Base de Datos Vectorial: Una base de datos especializada optimizada para almacenar y recuperar incrustaciones vectoriales de manera eficiente, lo que permite capacidades de búsqueda semántica.
Dimensión Vectorial: El tamaño de las incrustaciones vectoriales (típicamente de 768 a 1536 números), que afecta el detalle y la matiz capturados en la representación semántica.
Incrustaciones Vectoriales: Representaciones numéricas (listas de varios cientos de números) que capturan el significado semántico del texto, permitiendo comparaciones de similitud más allá de la coincidencia de palabras clave. A menudo se les llama simplemente "Incrustaciones" en contextos técnicos.
Convenciones de Encabezado de API
Al utilizar las API de Rememberizer, se deben seguir las siguientes convenciones de encabezado:
Encabezado de Autorización:
Authorization: Bearer YOUR_JWT_TOKEN
Encabezado de Clave de API:
X-API-Key: YOUR_API_KEY
(en mayúsculas como se muestra)Encabezado de Tipo de Contenido:
Content-Type: application/json
Recursos Relacionados
Para explicaciones más detalladas de conceptos clave:
Last updated