Buscar documentos del Almacenamiento de Vectores por similitud semántica
Buscar documentos de Vector Store con similitud semántica y operaciones por lotes
Last updated
Buscar documentos de Vector Store con similitud semántica y operaciones por lotes
Last updated
vector-store-id
string
Requerido. El ID de la tienda de vectores en la que buscar.
q
cadena
Requerido. El texto de la consulta de búsqueda.
n
entero
Número de resultados a devolver. Predeterminado: 10.
t
número
Umbral de coincidencia. Predeterminado: 0.7.
prev_chunks
entero
Número de fragmentos antes del fragmento coincidente a incluir. Predeterminado: 0.
next_chunks
entero
Número de fragmentos después del fragmento coincidente a incluir. Predeterminado: 0.
Este endpoint requiere autenticación utilizando una clave API en el encabezado x-api-key
.
400
Solicitud Incorrecta - Faltan parámetros requeridos o formato inválido
401
No Autorizado - Clave API inválida o faltante
404
No Encontrado - Almacén de Vectores no encontrado
500
Error Interno del Servidor
Utiliza los parámetros prev_chunks
y next_chunks
para controlar cuánto contexto se incluye con cada coincidencia:
Establece ambos en 0 para coincidencias precisas sin contexto
Establece ambos en 1-2 para coincidencias con contexto mínimo
Establece ambos en 3-5 para coincidencias con contexto sustancial
El parámetro t
controla cuán estrictamente se filtran las coincidencias:
Valores más altos (por ejemplo, 0.9) devuelven solo coincidencias muy cercanas
Valores más bajos (por ejemplo, 0.5) devuelven más coincidencias con mayor variedad
El valor predeterminado (0.7) proporciona un enfoque equilibrado
Para aplicaciones de alto rendimiento, Rememberizer admite operaciones por lotes eficientes en almacenes de vectores. Estos métodos optimizan el rendimiento al procesar múltiples consultas de búsqueda.
Al implementar operaciones por lotes para búsquedas en el almacén de vectores, considera estas mejores prácticas:
Tamaño Óptimo del Lote: Para la mayoría de las aplicaciones, procesar de 5 a 10 consultas en paralelo proporciona un buen equilibrio entre rendimiento y uso de recursos.
Conciencia del Límite de Tasa: Incluye mecanismos de retraso entre lotes (típicamente de 1 a 2 segundos) para evitar alcanzar los límites de tasa de la API.
Manejo de Errores: Implementa un manejo de errores robusto para consultas individuales que puedan fallar dentro de un lote.
Gestión de Conexiones: Para aplicaciones de alto volumen, implementa agrupamiento de conexiones para reducir la sobrecarga.
Configuración de Tiempo de Espera: Establece tiempos de espera apropiados para cada solicitud para evitar que consultas de larga duración bloqueen todo el lote.
Procesamiento de Resultados: Considera procesar los resultados de manera asíncrona a medida que estén disponibles en lugar de esperar a que todos los resultados lleguen.
Monitoreo: Realiza un seguimiento de métricas de rendimiento como el tiempo de respuesta promedio y las tasas de éxito para identificar oportunidades de optimización.
Para aplicaciones de producción con volúmenes de consultas muy altos, considera implementar un sistema de cola con procesos de trabajo para gestionar grandes lotes de manera eficiente.
Este punto final te permite buscar en tu almacén de vectores utilizando similitud semántica. Devuelve documentos que están conceptualmente relacionados con tu consulta, incluso si no contienen las palabras clave exactas. Esto lo hace particularmente poderoso para consultas en lenguaje natural y respuestas a preguntas.
Initiate a search operation with a query text and receive most semantically similar responses from the vector store.
The ID of the vector store.
The search query text.
Number of chunks to return.
Matching threshold.
Number of chunks before the matched chunk to include.
Number of chunks after the matched chunk to include.
The API key for authentication.
Search results retrieved successfully.