Archivi Vettoriali
Questa guida ti aiuterà a capire come utilizzare il Rememberizer Vector Store come sviluppatore.
L'Archivio Vettoriale di Rememberizer semplifica il processo di gestione dei dati vettoriali, consentendoti di concentrarti sull'input di testo e sfruttare la potenza dei vettori per varie applicazioni come la ricerca e l'analisi dei dati.
Introduzione
Il Rememberizer Vector Store fornisce un'interfaccia facile da usare per gestire i dati vettoriali, astrando la complessità delle embedding vettoriali. Alimentato da PostgreSQL con l'estensione pgvector, il Rememberizer Vector Store ti consente di lavorare direttamente con il testo. Il servizio gestisce il chunking, la vettorizzazione e l'archiviazione dei dati testuali, rendendo più facile per te concentrarti sulla logica principale della tua applicazione.
Per una comprensione più profonda dei concetti teorici dietro le embedding vettoriali e i database vettoriali, vedi Cosa sono le embedding vettoriali e i database vettoriali?.
Panoramica Tecnica
Come Funzionano gli Archivi Vettoriali
Gli Archivi Vettoriali di Rememberizer convertono il testo in rappresentazioni vettoriali ad alta dimensione (embedding) che catturano il significato semantico. Questo consente:
Ricerca Semantica: Trovare documenti basati sul significato piuttosto che solo su parole chiave
Corrispondenza di Somiglianza: Identificare contenuti concettualmente correlati
Recupero Efficiente: Localizzare rapidamente informazioni rilevanti da grandi set di dati
Componenti Chiave
Elaborazione dei Documenti: Il testo viene suddiviso in pezzi di dimensioni ottimali con confini sovrapposti per preservare il contesto
Vettorizzazione: I pezzi vengono convertiti in embedding utilizzando modelli all'avanguardia
Indicizzazione: Algoritmi specializzati organizzano i vettori per una ricerca di similarità efficiente
Elaborazione delle Query: Le query di ricerca vengono vettorizzate e confrontate con gli embedding memorizzati
Architettura
Rememberizer implementa i vettori di archiviazione utilizzando:
PostgreSQL con estensione pgvector: Per un'archiviazione e ricerca dei vettori efficiente
Organizzazione basata su collezioni: Ogni vettore di archiviazione ha la propria collezione isolata
Accesso guidato da API: Endpoint RESTful semplici per tutte le operazioni
Iniziare
Creazione di un Negozio di Vettori
Naviga nella Sezione Negozio di Vettori nel tuo pannello di controllo
Clicca su "Crea nuovo Negozio di Vettori":
Apparirà un modulo che ti chiederà di inserire i dettagli.
Compila i Dettagli:
Nome: Fornisci un nome unico per il tuo negozio di vettori.
Descrizione: Scrivi una breve descrizione del negozio di vettori.
Modello di Embedding: Seleziona il modello che converte il testo in vettori.
Algoritmo di Indicizzazione: Scegli come i vettori saranno organizzati per la ricerca.
Metrica di Ricerca: Definisci come viene calcolata la somiglianza tra i vettori.
Dimensione del Vettore: La dimensione degli embedding dei vettori (tipicamente 768-1536).
Invia il Modulo:
Clicca sul pulsante "Crea". Riceverai una notifica di successo e il nuovo negozio apparirà nella tua lista di negozi di vettori.

Opzioni di Configurazione
Modelli di Embedding
openai/text-embedding-3-large
1536
Modello di embedding ad alta precisione di OpenAI
Applicazioni di produzione che richiedono la massima precisione
openai/text-embedding-3-small
1536
Modello di embedding più piccolo e veloce di OpenAI
Applicazioni con requisiti di throughput più elevati
Algoritmi di indicizzazione
IVFFLAT (predefinito)
File invertito con compressione piatta
Buon equilibrio tra velocità e precisione; funziona bene per la maggior parte dei dataset
HNSW
Mondo piccolo navigabile gerarchico
Maggiore precisione per grandi dataset; requisiti di memoria più elevati
Metriche di Ricerca
coseno (predefinito)
Misura l'angolo tra i vettori
Abbinamento di somiglianza di uso generale
prodotto interno (ip)
Prodotto scalare tra vettori
Quando la magnitudine del vettore è importante
L2 (Euclideo)
Distanza in linea retta tra i vettori
Quando le relazioni spaziali sono importanti
Gestione degli Archivi Vettoriali
Visualizza e Modifica gli Archivi Vettoriali:
Accedi al pannello di gestione per visualizzare, modificare o eliminare gli archivi vettoriali.
Visualizzazione dei Documenti:
Sfoglia i singoli documenti e i loro metadati associati all'interno di un archivio vettoriale specifico.
Statistiche:
Visualizza statistiche dettagliate come il numero di vettori memorizzati, le prestazioni delle query e le metriche operative.

Gestione delle Chiavi API
Le chiavi API vengono utilizzate per autenticare e autorizzare l'accesso agli endpoint API del Rememberizer Vector Store. Una corretta gestione delle chiavi API è essenziale per mantenere la sicurezza e l'integrità dei tuoi vector store.
Creazione di Chiavi API
Vai alla pagina dei dettagli del tuo Vector Store
Naviga alla Sezione di Gestione delle Chiavi API:
Può essere trovata all'interno della scheda "Configurazione"
Clicca su "Aggiungi Chiave API":
Apparirà un modulo che ti chiederà di inserire i dettagli.
Compila i Dettagli:
Nome: Fornisci un nome per la chiave API per aiutarti a identificare il suo caso d'uso.
Invia il Modulo:
Clicca sul pulsante "Crea". La nuova chiave API verrà generata e visualizzata. Assicurati di copiarla e conservarla in modo sicuro. Questa chiave viene utilizzata per autenticare le richieste a quel specifico vector store.

Revoca delle chiavi API
Se una chiave API non è più necessaria, puoi eliminarla per prevenire potenziali abusi.
Per motivi di sicurezza, potresti voler ruotare le tue chiavi API periodicamente. Questo comporta la generazione di una nuova chiave e la revoca della vecchia.
Utilizzo dell'API del Vector Store
Dopo aver creato un Vector Store e generato una chiave API, puoi interagire con esso utilizzando l'API REST.
Esempi di Codice
```ruby require 'net/http' require 'uri' require 'json'
class VectorStoreClient def initialize(api_key, vector_store_id) @api_key = api_key @vector_store_id = vector_store_id @base_url = 'https://api.rememberizer.ai/api/v1' end
Ottieni dettagli sul vector store
def get_vector_store_info uri = URI("#{@base_url}/vector-stores/#{@vector_store_id}") request = Net::HTTP::Get.new(uri) request['x-api-key'] = @api_key
end
Carica contenuto di testo
def upload_text(name, content) uri = URI("#{@base_url}/vector-stores/#{@vector_store_id}/documents/text") request = Net::HTTP::Post.new(uri) request['Content-Type'] = 'application/json' request['x-api-key'] = @api_key
end
Cerca documenti
def search(query, num_results: 5, prev_chunks: 1, next_chunks: 1, threshold: nil) uri = URI("#{@base_url}/vector-stores/#{@vector_store_id}/documents/search") params = { q: query, n: num_results, prev_chunks: prev_chunks, next_chunks: next_chunks }
end
Elenca documenti
def list_documents uri = URI("#{@base_url}/vector-stores/#{@vector_store_id}/documents") request = Net::HTTP::Get.new(uri) request['x-api-key'] = @api_key
end
Carica file (form multipart)
def upload_file(file_path) uri = URI("#{@base_url}/vector-stores/#{@vector_store_id}/documents")
end
private
def send_request(uri, request) http = Net::HTTP.new(uri.host, uri.port) http.use_ssl = (uri.scheme == 'https')
end end
{% endtab %}
{% tab title="cURL" %}
{% endtab %} {% endtabs %}
Considerazioni sulle Prestazioni
In arrivo: Diagramma dell'Architettura del Vector Store
Questo diagramma dell'architettura tecnica illustrerà:
L'architettura di base PostgreSQL + pgvector
Strutture degli algoritmi di indicizzazione (IVFFLAT vs. HNSW)
Come funzionano le metriche di ricerca nello spazio vettoriale (confronto visivo)
Processo di suddivisione dei documenti con visualizzazione delle sovrapposizioni
Considerazioni sulle prestazioni visualizzate su diverse scale
Ottimizzazione per Diversi Volumi di Dati
Piccolo (<10k documenti)
IVFFLAT, similarità coseno
Configurazione semplice che offre buone prestazioni
Medio (10k-100k documenti)
IVFFLAT, assicurarsi di effettuare regolarmente il reindicizzazione
Equilibrio tra velocità di ricerca e manutenzione dell'indice
Grande (>100k documenti)
HNSW, considerare di aumentare le dimensioni del vettore
Maggiore utilizzo di memoria ma mantiene le prestazioni su larga scala
Strategie di Suddivisione
Il processo di suddivisione influisce significativamente sulla qualità della ricerca:
Dimensione del Chunk: Rememberizer utilizza una dimensione di chunk predefinita di 1024 byte con un sovrapposizione di 200 byte
Chunk Più Piccoli (512-1024 byte): Corrispondenze più precise, migliori per domande specifiche
Chunk Più Grandi (1500-2048 byte): Maggiore contesto in ogni corrispondenza, migliori per argomenti più ampi
Sovrapposizione: Garantisce che il contesto non venga perso ai confini dei chunk
Ottimizzazione delle Query
Finestre di Contesto: Usa
prev_chunksenext_chunksper recuperare contenuti circostantiConteggio dei Risultati: Inizia con 3-5 risultati (
nparametro) e adatta in base alle esigenze di precisioneSoglia: Regola il parametro
tper filtrare i risultati in base al punteggio di somiglianza
Utilizzo Avanzato
Reindicizzazione
Rememberizer attiva automaticamente la reindicizzazione quando il numero di vettori supera le soglie predefinite, ma considera la reindicizzazione manuale dopo:
Aver caricato un gran numero di documenti
Aver cambiato il modello di embedding
Aver modificato l'algoritmo di indicizzazione
Miglioramento delle Query
Per risultati di ricerca migliori:
Essere specifici nelle query di ricerca
Includere contesto quando possibile
Usare linguaggio naturale piuttosto che parole chiave
Regolare i parametri in base alla qualità dei risultati
Migrazione da Altri Database Vettoriali
Se attualmente stai utilizzando altre soluzioni di database vettoriali e desideri migrare a Rememberizer Vector Store, le seguenti guide ti aiuteranno a trasferire i tuoi dati in modo efficiente.
Panoramica della Migrazione
La migrazione dei dati vettoriali comporta:
Esportare i dati dal tuo database vettoriale di origine
Convertire i dati in un formato compatibile con Rememberizer
Importare i dati nel tuo Rememberizer Vector Store
Verificare che la migrazione sia stata completata con successo
Vantaggi della Migrazione a Rememberizer
Fondazione PostgreSQL: Costruito su una tecnologia di database matura con backup e recupero integrati
Ecosistema Integrato: Connessione senza soluzione di continuità con altri componenti di Rememberizer
Gestione Semplificata: Interfaccia unificata per le operazioni vettoriali
Sicurezza Avanzata: Sicurezza a livello di riga e controlli di accesso dettagliati
Architettura Scalabile: Ottimizzazione delle prestazioni man mano che i tuoi dati crescono
Migrazione da Pinecone
{% tabs %} {% tab title="Python" %}
{% endtab %}
{% tab title="Node.js" %}
{% endtab %} {% endtabs %}
Migrazione da Qdrant
{% tabs %} {% tab title="Python" %}
{% endtab %}
{% tab title="Node.js" %}
{% endtab %} {% endtabs %}
Migrazione da Supabase pgvector
Se stai già utilizzando Supabase con pgvector, la migrazione a Rememberizer è particolarmente semplice poiché entrambi utilizzano PostgreSQL con l'estensione pgvector.
{% tabs %} {% tab title="Python" %}
{% endtab %}
{% tab title="Node.js" %}
Migliori Pratiche per la Migrazione
Segui queste raccomandazioni per una migrazione di successo:
Pianifica in Anticipo:
Stima il volume dei dati e il tempo necessario per la migrazione
Pianifica la migrazione durante i periodi di bassa affluenza
Aumenta lo spazio su disco prima di iniziare grandi migrazioni
Testa Prima:
Crea un archivio vettoriale di prova in Rememberizer
Migra un piccolo sottoinsieme di dati (100-1000 vettori)
Verifica la funzionalità di ricerca con query chiave
Validazione dei Dati:
Confronta i conteggi dei documenti prima e dopo la migrazione
Esegui query di benchmark per garantire risultati simili
Valida che i metadati siano correttamente preservati
Ottimizza per le Prestazioni:
Usa operazioni in batch per efficienza
Considera la collocazione geografica dei database sorgente e di destinazione
Monitora i limiti di velocità dell'API e regola le dimensioni dei batch di conseguenza
Passi Post-Migrazione:
Verifica la creazione dell'indice in Rememberizer
Aggiorna le configurazioni dell'applicazione per puntare al nuovo archivio vettoriale
Tieni il database sorgente come backup fino a quando la migrazione non è verificata
Per un riferimento API dettagliato e documentazione sugli endpoint, visita la pagina API Archivi Vettoriali.
Assicurati di gestire le chiavi API in modo sicuro e segui le migliori pratiche per la gestione delle chiavi API.
Last updated