Cerca documenti dell'Archiviazione Vettoriale per somiglianza semantica
Cerca documenti del Vector Store con somiglianza semantica e operazioni in batch
Last updated
Cerca documenti del Vector Store con somiglianza semantica e operazioni in batch
Last updated
vector-store-id
string
Obbligatorio. L'ID del negozio di vettori in cui cercare.
q
string
Obbligatorio. Il testo della query di ricerca.
n
integer
Numero di risultati da restituire. Predefinito: 10.
t
number
Soglia di corrispondenza. Predefinito: 0.7.
prev_chunks
integer
Numero di chunk prima del chunk corrispondente da includere. Predefinito: 0.
next_chunks
integer
Numero di chunk dopo il chunk corrispondente da includere. Predefinito: 0.
Questo endpoint richiede autenticazione utilizzando una chiave API nell'intestazione x-api-key
.
400
Richiesta Errata - Parametri richiesti mancanti o formato non valido
401
Non Autorizzato - Chiave API non valida o mancante
404
Non Trovato - Negozio di Vettori non trovato
500
Errore Interno del Server
Utilizza i parametri prev_chunks
e next_chunks
per controllare quanto contesto è incluso con ogni corrispondenza:
Imposta entrambi a 0 per corrispondenze precise senza contesto
Imposta entrambi a 1-2 per corrispondenze con contesto minimo
Imposta entrambi a 3-5 per corrispondenze con contesto sostanziale
Il parametro t
controlla quanto rigorosamente vengono filtrate le corrispondenze:
Valori più alti (ad es., 0.9) restituiscono solo corrispondenze molto vicine
Valori più bassi (ad es., 0.5) restituiscono più corrispondenze con maggiore varietà
Il valore predefinito (0.7) fornisce un approccio equilibrato
Per applicazioni ad alta capacità, Rememberizer supporta operazioni in batch efficienti sui vettori di archiviazione. Questi metodi ottimizzano le prestazioni durante l'elaborazione di più query di ricerca.
Quando si implementano operazioni in batch per le ricerche nel vector store, considera queste migliori pratiche:
Dimensionamento Ottimale del Batch: Per la maggior parte delle applicazioni, elaborare 5-10 query in parallelo offre un buon equilibrio tra throughput e utilizzo delle risorse.
Consapevolezza del Rate Limiting: Includi meccanismi di ritardo tra i batch (tipicamente 1-2 secondi) per evitare di superare i limiti di velocità dell'API.
Gestione degli Errori: Implementa una gestione robusta degli errori per le singole query che potrebbero fallire all'interno di un batch.
Gestione delle Connessioni: Per applicazioni ad alto volume, implementa il pooling delle connessioni per ridurre il sovraccarico.
Configurazione dei Timeout: Imposta timeout appropriati per ogni richiesta per evitare che query a lungo termine blocchino l'intero batch.
Elaborazione dei Risultati: Considera di elaborare i risultati in modo asincrono man mano che diventano disponibili piuttosto che attendere tutti i risultati.
Monitoraggio: Monitora metriche di prestazione come il tempo medio di risposta e i tassi di successo per identificare opportunità di ottimizzazione.
Per applicazioni di produzione con volumi di query molto elevati, considera di implementare un sistema di coda con processi di lavoro per gestire grandi batch in modo efficiente.
Questo endpoint ti consente di cercare nel tuo vector store utilizzando la similarità semantica. Restituisce documenti che sono concettualmente correlati alla tua query, anche se non contengono le parole chiave esatte. Questo lo rende particolarmente potente per query in linguaggio naturale e risposte a domande.