¿Qué son los Embeddings Vectoriales y las Bases de Datos Vectoriales?
Por qué Rememberizer es más que una base de datos o un motor de búsqueda por palabras clave
Last updated
Por qué Rememberizer es más que una base de datos o un motor de búsqueda por palabras clave
Last updated
Rememberizer utiliza embeddings vectoriales en bases de datos vectoriales para habilitar búsquedas de similitud semántica dentro de las fuentes de conocimiento del usuario. Esta es una forma fundamentalmente más avanzada y matizada de recuperación de información que simplemente buscar palabras clave en el contenido a través de un motor de búsqueda o base de datos tradicional.
En su forma más avanzada (como la que utiliza Rememberizer), los embeddings vectoriales son creados por modelos de lenguaje con arquitecturas similares a los LLMs de IA (Modelos de Lenguaje de Gran Escala) que sustentan los modelos GPT de OpenAI y el servicio ChatGPT, así como modelos/servicios de Google (Gemini), Anthropic (Claude), Meta (LLaMA) y otros.
¿Cómo se ve un embedding vectorial? Considera una coordenada (x,y) en dos dimensiones. Si representa una línea desde el origen hasta este punto, podemos pensar en ella como una línea con una dirección; en otras palabras, un vector en dos dimensiones.
En el contexto de Rememberizer, un embedding vectorial es típicamente una lista de varios cientos de números (a menudo 768, 1024 o 1536) que representan un vector en un espacio de alta dimensión. Esta lista de números puede representar pesos en un modelo Transformer que definen el significado en una frase como "Un rayo de luz de la nada." Esta es fundamentalmente la misma representación subyacente del significado utilizada en modelos como GPT-4. Como resultado, un buen embedding vectorial permite la misma comprensión sofisticada que vemos en los modelos de lenguaje de IA modernos.
Los embeddings vectoriales pueden representar más que solo texto; también pueden codificar otros tipos de datos como imágenes o sonido. Con modelos adecuadamente entrenados, puedes comparar entre tipos de medios, lo que permite que un embedding vectorial de texto se compare con una imagen, o viceversa.
Actualmente, Rememberizer permite búsquedas dentro del componente de texto de los documentos y conocimientos del usuario. Las capacidades de búsqueda de texto a imagen y de imagen a texto están en la hoja de ruta de Rememberizer para el desarrollo futuro.
Las principales empresas de tecnología aprovechan los embeddings vectoriales en sus productos:
La búsqueda por palabras clave encuentra coincidencias exactas o sinónimos predeterminados. En contraste, la búsqueda vectorial de Rememberizer encuentra contenido que está conceptualmente relacionado, incluso cuando se utiliza una terminología diferente. Por ejemplo:
Una búsqueda por palabras clave para "cuidado de perros" podría perder un documento relevante sobre "mantenimiento de la salud canina"
La búsqueda vectorial de Rememberizer reconocería estos conceptos como semánticamente similares y devolvería ambos
Esta capacidad hace que Rememberizer sea particularmente poderoso para recuperar información relevante de diversas fuentes de conocimiento.
Próximamente: Visualización del Proceso de Búsqueda Vectorial
Este diagrama ilustrará el flujo de trabajo completo de búsqueda semántica en Rememberizer:
Fragmentación y preprocesamiento de documentos
Proceso de generación de incrustaciones vectoriales
Almacenamiento en la base de datos vectorial
Incrustación de consulta de búsqueda
Cálculo de coincidencia de similitud
Comparación lado a lado con la búsqueda tradicional por palabras clave
Para comprender profundamente cómo funcionan las incrustaciones vectoriales y las bases de datos vectoriales:
Las tecnologías detrás de los embeddings vectoriales han evolucionado significativamente con el tiempo:
Esto hace que los embeddings vectoriales sean una elección natural para descubrir conocimiento relevante que incluir en el contexto de los prompts de modelos de IA. Las tecnologías son complementarias y conceptualmente relacionadas. Por esta razón, la mayoría de los proveedores de LLMs como servicio también producen embeddings vectoriales como servicio (por ejemplo: o ).
Google utiliza embeddings vectoriales para potenciar tanto su búsqueda de texto (texto a texto) como su búsqueda de imágenes (texto a imagen) ()
Meta (Facebook) ha implementado embeddings para la búsqueda en su red social ()
Snapchat utiliza embeddings vectoriales para entender el contexto y ofrecer publicidad dirigida ()
Comienza con la
Pinecone (un servicio de base de datos vectorial) ofrece una buena
La biblioteca FAISS de Meta: "FAISS: A Library for Efficient Similarity Search and Clustering of Dense Vectors" de Johnson, Douze y Jégou (2017) proporciona información completa sobre la búsqueda de similitud vectorial eficiente ()
El artículo de 2017 "Attention Is All You Need" () introdujo la arquitectura Transformer que impulsa los LLM modernos y modelos de embedding avanzados
"Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality" (, ) estableció la teoría para la búsqueda de similitud eficiente en espacios de alta dimensión
BERT (2018, ) demostró el poder del entrenamiento bidireccional para tareas de comprensión del lenguaje
Métodos anteriores como GloVe (2014, ) y Word2Vec (2013, ) sentaron las bases para los embeddings de palabras neuronales
Para detalles de implementación técnica y orientación para desarrolladores sobre el uso de almacenes vectoriales con Rememberizer, consulte .
Los investigadores de Google estuvieron detrás de la arquitectura Transformer original descrita en "Attention Is All You Need" (), aunque muchas organizaciones han construido y ampliado este trabajo fundamental desde entonces.