Glossário
Um glossário abrangente de termos e conceitos usados no Rememberizer
Este glossário fornece definições para termos e conceitos-chave usados em toda a documentação do Rememberizer. Use-o como referência quando encontrar terminologia desconhecida.
Nota: Este glossário representa a terminologia padronizada para o Rememberizer. Embora você possa encontrar pequenas variações na documentação, os termos e definições fornecidos aqui devem ser considerados a referência canônica.
A
Chave da API: Um token de autenticação seguro usado para acessar programaticamente os endpoints da API do Rememberizer. As chaves da API são usadas principalmente para acesso ao armazenamento de vetores e integração de conhecimento comum.
Origem da Solicitação Autorizada: Uma configuração de segurança que especifica quais domínios podem fazer solicitações de API ao Rememberizer, limitando potenciais ataques de falsificação de solicitação entre sites.
B
Operações em Lote: Processamento de múltiplos itens (buscas, uploads, etc.) em uma única solicitação para melhorar a eficiência. O Rememberizer suporta operações em lote para cargas de trabalho de alto volume.
Tamanho do Lote: O número de itens processados juntos durante operações como migração, busca ou ingestão de documentos, afetando o desempenho e o uso de recursos.
C
Chunking: O processo de dividir documentos em pedaços de tamanho otimizado (tipicamente 512-2048 bytes) com limites sobrepostos para preservar o contexto durante buscas vetoriais.
Client ID: Um identificador público emitido para aplicativos de terceiros que permite a autorização OAuth2 com a Rememberizer.
Client Secret: Uma chave privada emitida com um Client ID que deve ser mantida em segurança e é usada para autenticar o aplicativo durante os fluxos OAuth2.
Collection-based Organization: A forma como os armazenamentos vetoriais são organizados na Rememberizer, com cada armazenamento tendo sua própria coleção isolada para gerenciamento de dados.
Common Knowledge: Informações publicadas por usuários que podem ser acessadas por outros usuários ou aplicativos, criando um recurso de conhecimento compartilhado. O Common Knowledge é baseado em um Memento e pode ser acessado via API. Também é às vezes referido como "Shared Knowledge" na interface do usuário.
Context Windows: O conteúdo circundante incluído com pedaços correspondentes nos resultados da busca, controlado pelos parâmetros prev_chunks
e next_chunks
.
Cosine Similarity: Uma medida de similaridade entre vetores calculada encontrando o cosseno do ângulo entre eles, usada como a métrica de busca padrão na Rememberizer.
E
Modelo de Embedding: Um modelo de IA que gera embeddings vetoriais a partir de texto. O Rememberizer suporta vários modelos de embedding, incluindo o text-embedding-3-large e text-embedding-3-small da OpenAI.
Padrões de Integração Empresarial: Abordagens padronizadas para implementar o Rememberizer em ambientes empresariais de grande escala, incluindo designs arquitetônicos para segurança, escalabilidade e conformidade.
G
Configurações Globais: Configurações em todo o sistema para controlar permissões e comportamentos padrão em todos os aplicativos conectados no Rememberizer.
H
HNSW (Hierarchical Navigable Small World): Um algoritmo de indexação que oferece melhor precisão para grandes conjuntos de dados à custa de maiores requisitos de memória, disponível como uma opção de indexação nos Armazenamentos de Vetores Rememberizer.
I
Algoritmo de Indexação: O método utilizado para organizar vetores para recuperação eficiente. O Rememberizer suporta os algoritmos IVFFLAT (padrão) e HNSW.
IVFFLAT: Um algoritmo de indexação que fornece um bom equilíbrio entre velocidade de busca e precisão para bancos de dados vetoriais, utilizado como padrão no Rememberizer.
K
Fonte de Dados: As várias origens de dados no Rememberizer, incluindo integrações com plataformas como Google Drive, Slack, Dropbox e Gmail. Também referido como "Fonte de Conhecimento" ou "Integração" em alguns contextos.
L
Integração LangChain: Funcionalidade que permite que o Rememberizer seja utilizado como um recuperador em aplicações LangChain, suportando sistemas RAG (Geração Aumentada por Recuperação).
M
Memento: Um mecanismo de filtragem que controla quais conhecimentos são compartilhados com aplicativos de terceiros, permitindo que os usuários compartilhem seletivamente arquivos, documentos ou grupos de conteúdo específicos. Às vezes referido como "Filtro Memento" na interface do usuário.
Integração de Memória: Um recurso que permite que aplicativos armazenem informações valiosas no Rememberizer para recuperação posterior, com permissões de leitura/gravação configuráveis. Também referido como "Memória Compartilhada" em alguns contextos.
O
Autenticação OAuth2: O protocolo de autorização padrão usado para aplicativos de terceiros acessarem os dados do Rememberizer com o consentimento do usuário, proporcionando acesso delegado seguro. Às vezes abreviado para "OAuth" na documentação.
R
RAG (Geração Aumentada por Recuperação): Uma técnica que combina sistemas de recuperação (como Rememberizer) com modelos generativos para fornecer respostas mais precisas e fundamentadas com base em conhecimento específico.
Ler Próprio/Escrever Próprio: Um nível de permissão onde os aplicativos podem acessar e modificar apenas seus próprios dados de memória no Rememberizer.
Ler Todos/Escrever Próprio: Um nível de permissão onde os aplicativos podem ler dados de memória de todos os aplicativos, mas podem modificar apenas seus próprios dados de memória.
Reindexação: O processo de reconstruir índices vetoriais após mudanças significativas para melhorar o desempenho de busca nos Armazenamentos Vetoriais do Rememberizer.
RememberizerRetriever: A classe de recuperador específica do LangChain que interage com as capacidades de busca semântica do Rememberizer.
Rememberizer GPT: Um aplicativo GPT personalizado que se integra com a API do Rememberizer para fornecer acesso ao conhecimento pessoal dentro do ChatGPT.
Rememberizer Vector Store: Um serviço de banco de dados vetorial baseado em PostgreSQL com a extensão pgvector que lida com a fragmentação, vetorização e armazenamento de dados de texto. Os termos "Armazenamento Vetorial" e "Banco de Dados Vetorial" são usados de forma intercambiável na documentação do Rememberizer, sendo "Armazenamento Vetorial" o termo preferido.
S
Search Metric: O método matemático usado para calcular a similaridade entre vetores. O Rememberizer suporta similaridade cosseno (padrão), produto interno e distância L2 (Euclidiana). Os termos "distância", "similaridade" e "correspondência" são às vezes usados de forma intercambiável para se referir a quão próximos os vetores estão relacionados entre si.
Semantic Search: Funcionalidade de busca que encontra conteúdo com base no significado em vez de apenas palavras-chave, permitindo resultados conceitualmente relacionados mesmo quando a terminologia difere.
Shared Memory: Um sistema que permite que aplicativos de terceiros armazenem e acessem dados na conta do Rememberizer de um usuário, proporcionando persistência em várias aplicações.
V
Banco de Dados Vetorial: Um banco de dados especializado otimizado para armazenar e recuperar embeddings vetoriais de forma eficiente, permitindo capacidades de busca semântica.
Dimensão Vetorial: O tamanho dos embeddings vetoriais (tipicamente 768-1536 números), afetando o detalhe e a nuance capturados na representação semântica.
Embeddings Vetoriais: Representações numéricas (listas de várias centenas de números) que capturam o significado semântico do texto, permitindo comparações de similaridade além da correspondência de palavras-chave. Frequentemente referidos simplesmente como "Embeddings" em contextos técnicos.
Convenções de Cabeçalho da API
Ao usar as APIs do Rememberizer, as seguintes convenções de cabeçalho devem ser seguidas:
Cabeçalho de Autorização:
Authorization: Bearer YOUR_JWT_TOKEN
Cabeçalho da Chave da API:
X-API-Key: YOUR_API_KEY
(em maiúsculas como mostrado)Cabeçalho do Tipo de Conteúdo:
Content-Type: application/json
Recursos Relacionados
Para explicações mais detalhadas sobre conceitos-chave:
Last updated