¿Qué son los Embeddings Vectoriales y las Bases de Datos Vectoriales?

Por qué Rememberizer es más que una base de datos o un motor de búsqueda por palabras clave

Rememberizer utiliza embeddings vectoriales en bases de datos vectoriales para habilitar búsquedas de similitud semántica dentro de las fuentes de conocimiento del usuario. Esta es una forma fundamentalmente más avanzada y matizada de recuperación de información que simplemente buscar palabras clave en el contenido a través de un motor de búsqueda o base de datos tradicional.

Una visualización de un espacio vectorial multidimensional

Cómo Rememberizer Utiliza Embeddings Vectoriales

En su forma más avanzada (como la que utiliza Rememberizer), los embeddings vectoriales son creados por modelos de lenguaje con arquitecturas similares a los LLMs de IA (Modelos de Lenguaje de Gran Escala) que sustentan los modelos GPT de OpenAI y el servicio ChatGPT, así como modelos/servicios de Google (Gemini), Anthropic (Claude), Meta (LLaMA) y otros.

Esto hace que los embeddings vectoriales sean una elección natural para descubrir conocimiento relevante que incluir en el contexto de los prompts de modelos de IA. Las tecnologías son complementarias y conceptualmente relacionadas. Por esta razón, la mayoría de los proveedores de LLMs como servicio también producen embeddings vectoriales como servicio (por ejemplo: el endpoint de embeddings de Together AI o los embeddings de texto y código de OpenAI).

Comprendiendo los Embeddings Vectoriales

¿Cómo se ve un embedding vectorial? Considera una coordenada (x,y) en dos dimensiones. Si representa una línea desde el origen hasta este punto, podemos pensar en ella como una línea con una dirección; en otras palabras, un vector en dos dimensiones.

En el contexto de Rememberizer, un embedding vectorial es típicamente una lista de varios cientos de números (a menudo 768, 1024 o 1536) que representan un vector en un espacio de alta dimensión. Esta lista de números puede representar pesos en un modelo Transformer que definen el significado en una frase como "Un rayo de luz de la nada." Esta es fundamentalmente la misma representación subyacente del significado utilizada en modelos como GPT-4. Como resultado, un buen embedding vectorial permite la misma comprensión sofisticada que vemos en los modelos de lenguaje de IA modernos.

Más Allá del Texto: Embeddings Multimodales

Los embeddings vectoriales pueden representar más que solo texto; también pueden codificar otros tipos de datos como imágenes o sonido. Con modelos adecuadamente entrenados, puedes comparar entre tipos de medios, lo que permite que un embedding vectorial de texto se compare con una imagen, o viceversa.

Actualmente, Rememberizer permite búsquedas dentro del componente de texto de los documentos y conocimientos del usuario. Las capacidades de búsqueda de texto a imagen y de imagen a texto están en la hoja de ruta de Rememberizer para el desarrollo futuro.

Aplicaciones en el Mundo Real

Las principales empresas de tecnología aprovechan los embeddings vectoriales en sus productos:

Google utiliza embeddings vectoriales para potenciar tanto su búsqueda de texto (texto a texto) como su búsqueda de imágenes (texto a imagen) (referencia)
Meta (Facebook) ha implementado embeddings para la búsqueda en su red social (referencia)
Snapchat utiliza embeddings vectoriales para entender el contexto y ofrecer publicidad dirigida (referencia)

Cómo se Diferencia la Búsqueda Vectorial de Rememberizer de la Búsqueda por Palabras Clave

La búsqueda por palabras clave encuentra coincidencias exactas o sinónimos predeterminados. En contraste, la búsqueda vectorial de Rememberizer encuentra contenido que está conceptualmente relacionado, incluso cuando se utiliza una terminología diferente. Por ejemplo:

Una búsqueda por palabras clave para "cuidado de perros" podría perder un documento relevante sobre "mantenimiento de la salud canina"
La búsqueda vectorial de Rememberizer reconocería estos conceptos como semánticamente similares y devolvería ambos

Esta capacidad hace que Rememberizer sea particularmente poderoso para recuperar información relevante de diversas fuentes de conocimiento.

Próximamente: Visualización del Proceso de Búsqueda Vectorial

Este diagrama ilustrará el flujo de trabajo completo de búsqueda semántica en Rememberizer:

Fragmentación y preprocesamiento de documentos
Proceso de generación de incrustaciones vectoriales
Almacenamiento en la base de datos vectorial
Incrustación de consulta de búsqueda
Cálculo de coincidencia de similitud
Comparación lado a lado con la búsqueda tradicional por palabras clave

Recursos Técnicos

Para comprender profundamente cómo funcionan las incrustaciones vectoriales y las bases de datos vectoriales:

Comienza con la visión general de Hugging Face
Pinecone (un servicio de base de datos vectorial) ofrece una buena introducción a las incrustaciones vectoriales
La biblioteca FAISS de Meta: "FAISS: A Library for Efficient Similarity Search and Clustering of Dense Vectors" de Johnson, Douze y Jégou (2017) proporciona información completa sobre la búsqueda de similitud vectorial eficiente (repositorio de GitHub)

La Fundación de la IA Moderna

Las tecnologías detrás de los embeddings vectoriales han evolucionado significativamente con el tiempo:

El artículo de 2017 "Attention Is All You Need" (referencia) introdujo la arquitectura Transformer que impulsa los LLM modernos y modelos de embedding avanzados
"Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality" (1998, 2010) estableció la teoría para la búsqueda de similitud eficiente en espacios de alta dimensión
BERT (2018, referencia) demostró el poder del entrenamiento bidireccional para tareas de comprensión del lenguaje
Métodos anteriores como GloVe (2014, referencia) y Word2Vec (2013, referencia) sentaron las bases para los embeddings de palabras neuronales

Para detalles de implementación técnica y orientación para desarrolladores sobre el uso de almacenes vectoriales con Rememberizer, consulte Vector Stores.

Un aspecto notable de los modelos basados en Transformer son sus propiedades de escalado; a medida que utilizan más datos y tienen más parámetros, su comprensión y capacidades mejoran drásticamente. Esta propiedad de escalado se observó con modelos como GPT-2 y ha impulsado el rápido avance de las capacidades de IA.

Los investigadores de Google estuvieron detrás de la arquitectura Transformer original descrita en "Attention Is All You Need" (referencia de patente), aunque muchas organizaciones han construido y ampliado este trabajo fundamental desde entonces.

PreviousAntecedentes NextGlosario

Last updated 3 months ago