Integração com LangChain
Aprenda como integrar o Rememberizer como um recuperador LangChain para fornecer ao seu aplicativo LangChain acesso a uma poderosa busca em banco de dados vetorial.
Integração LangChain
O Rememberizer se integra ao LangChain através da classe RememberizerRetriever
, permitindo que você incorpore facilmente as capacidades de busca semântica do Rememberizer em suas aplicações alimentadas pelo LangChain. Este guia explica como configurar e usar essa integração para construir aplicações LLM avançadas com acesso à sua base de conhecimento.
Introdução
LangChain é um framework popular para construir aplicações com grandes modelos de linguagem (LLMs). Ao integrar o Rememberizer com o LangChain, você pode:
Usar sua base de conhecimento do Rememberizer em aplicações RAG (Geração Aumentada por Recuperação)
Criar chatbots com acesso aos seus documentos e dados
Construir sistemas de perguntas e respostas que aproveitam seu conhecimento
Desenvolver agentes que podem pesquisar e raciocinar sobre suas informações
A integração está disponível no módulo langchain_community.retrievers
.
Começando
Pré-requisitos
Antes de começar, você precisa:
Uma conta Rememberizer com Conhecimento Comum criada
Uma chave de API para acessar seu Conhecimento Comum
Ambiente Python com LangChain instalado
Para instruções detalhadas sobre como criar Conhecimento Comum e gerar uma chave de API, veja Registrando e Usando Chaves de API.
Instalação
Instale os pacotes necessários:
pip install langchain langchain_community
Se você planeja usar modelos OpenAI (como mostrado nos exemplos abaixo):
pip install langchain_openai
Configuração de Autenticação
Existem duas maneiras de autenticar o RememberizerRetriever
:
Variável de Ambiente: Defina a variável de ambiente
REMEMBERIZER_API_KEY
import os os.environ["REMEMBERIZER_API_KEY"] = "rem_ck_your_api_key"
Parâmetro Direto: Passe a chave da API diretamente ao inicializar o recuperador
retriever = RememberizerRetriever(rememberizer_api_key="rem_ck_your_api_key")
Opções de Configuração
A classe RememberizerRetriever
aceita estes parâmetros:
top_k_results
int
10
Número de documentos a retornar da busca
rememberizer_api_key
str
None
Chave da API para autenticação (opcional se definida como variável de ambiente)
Nos bastidores, o recuperador faz chamadas de API para o endpoint de busca do Rememberizer com parâmetros configuráveis adicionais:
prev_chunks
Número de partes antes da parte correspondente a incluir (padrão: 2)
next_chunks
Número de partes após a parte correspondente a incluir (padrão: 2)
return_full_content
Se deve retornar o conteúdo completo do documento (padrão: true)
Uso Básico
Aqui está um exemplo simples de recuperação de documentos do Rememberizer usando LangChain:
import os
from langchain_community.retrievers import RememberizerRetriever
Defina sua chave de API
os.environ["REMEMBERIZER_API_KEY"] = "rem_ck_your_api_key"
Inicializar o recuperador
retriever = RememberizerRetriever(top_k_results=5)
Obter documentos relevantes para uma consulta
docs = retriever.get_relevant_documents(query="Como funcionam as incorporações vetoriais?")
Exibir o primeiro documento
if docs: print(f"Documento: {docs[0].metadata['name']}") print(f"Conteúdo: {docs[0].page_content[:200]}...")
### Compreendendo a Estrutura do Documento
Cada documento retornado pelo recuperador possui:
- `page_content`: O conteúdo textual do trecho do documento correspondente
- `metadata`: Informações adicionais sobre o documento
Exemplo da estrutura de metadata:
```python
{
'id': 13646493,
'document_id': '17s3LlMbpkTk0ikvGwV0iLMCj-MNubIaP',
'name': 'What is a large language model (LLM)_ _ Cloudflare.pdf',
'type': 'application/pdf',
'path': '/langchain/What is a large language model (LLM)_ _ Cloudflare.pdf',
'url': 'https://drive.google.com/file/d/17s3LlMbpkTk0ikvGwV0iLMCj-MNubIaP/view',
'size': 337089,
'created_time': '',
'modified_time': '',
'indexed_on': '2024-04-04T03:36:28.886170Z',
'integration': {'id': 347, 'integration_type': 'google_drive'}
}
Exemplos Avançados
Construindo um Sistema de Perguntas e Respostas RAG
Este exemplo cria um sistema de perguntas e respostas que recupera informações do Rememberizer e usa o GPT-3.5 para formular respostas:
import os
from langchain_community.retrievers import RememberizerRetriever
from langchain.chains import RetrievalQA
from langchain_openai import ChatOpenAI
Configurar chaves da API
os.environ["REMEMBERIZER_API_KEY"] = "rem_ck_your_api_key" os.environ["OPENAI_API_KEY"] = "your_openai_api_key"
Inicialize o recuperador e o modelo de linguagem
retriever = RememberizerRetriever(top_k_results=5) llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)
Crie uma cadeia de QA de recuperação
qa_chain = RetrievalQA.from_chain_type( llm=llm, chain_type="stuff", # Método mais simples - apenas coloque todos os documentos no prompt retriever=retriever, return_source_documents=True )
Faça uma pergunta
response = qa_chain.invoke({"query": "O que é RAG no contexto da IA?"})
Imprimir a resposta
print(f"Resposta: {response['result']}") print("\nFontes:") for idx, doc in enumerate(response['source_documents']): print(f"{idx+1}. {doc.metadata['name']}")
### Construindo um Agente Conversacional com Memória
Este exemplo cria um agente conversacional que pode manter o histórico da conversa:
```python
import os
from langchain_community.retrievers import RememberizerRetriever
from langchain.chains import ConversationalRetrievalChain
from langchain.memory import ConversationBufferMemory
from langchain_openai import ChatOpenAI
Configurar chaves da API
os.environ["REMEMBERIZER_API_KEY"] = "rem_ck_your_api_key" os.environ["OPENAI_API_KEY"] = "your_openai_api_key"
Inicializar componentes
retriever = RememberizerRetriever(top_k_results=5) llm = ChatOpenAI(model_name="gpt-3.5-turbo") memory = ConversationBufferMemory( memory_key="chat_history", return_messages=True )
Crie a cadeia conversacional
conversation = ConversationalRetrievalChain.from_llm( llm=llm, retriever=retriever, memory=memory )
Exemplo de conversa
questions = [ "O que é RAG?", "Como os grandes modelos de linguagem o utilizam?", "Quais são as limitações dessa abordagem?", ]
for question in questions: response = conversation.invoke({"question": question}) print(f"Pergunta: {question}") print(f"Resposta: {response['answer']}\n")
## Melhores Práticas
### Otimizando o Desempenho de Recuperação
1. **Seja específico com as consultas**: Consultas mais específicas geralmente produzem melhores resultados
2. **Ajuste `top_k_results`**: Comece com 3-5 resultados e ajuste com base nas necessidades da aplicação
3. **Use janelas de contexto**: O recuperador inclui automaticamente contexto em torno dos trechos correspondentes
### Considerações de Segurança
1. **Proteja sua chave de API**: Armazene-a com segurança usando variáveis de ambiente ou ferramentas de gerenciamento de segredos
2. **Crie chaves dedicadas**: Crie chaves de API separadas para diferentes aplicações
3. **Gire as chaves regularmente**: Gere novas chaves periodicamente e descontinue as antigas
### Padrões de Integração
1. **Processamento pré-retrieval**: Considere pré-processar consultas de usuários para melhorar a relevância da busca
2. **Filtragem pós-retrieval**: Filtrar ou classificar documentos recuperados antes de passar para o LLM
3. **Busca híbrida**: Combine Rememberizer com outros recuperadores usando `EnsembleRetriever`
```python
from langchain.retrievers import EnsembleRetriever
from langchain_community.retrievers import RememberizerRetriever, WebResearchRetriever
Criar recuperadores
rememberizer_retriever = RememberizerRetriever(top_k_results=3) web_retriever = WebResearchRetriever(...) # Configurar outro recuperador
Crie um conjunto com pontuação ponderada
ensemble_retriever = EnsembleRetriever( retrievers=[rememberizer_retriever, web_retriever], weights=[0.7, 0.3] # Os resultados do Rememberizer têm maior peso )
## Solução de Problemas
### Problemas Comuns
1. **Erros de autenticação**: Verifique se sua chave de API está correta e devidamente configurada
2. **Nenhum resultado retornado**: Certifique-se de que seu Conhecimento Comum contém informações relevantes
3. **Limitação de taxa**: Esteja atento aos limites de taxa da API para aplicações de alto volume
### Dicas de Depuração
- Defina o modo de depuração do LangChain para ver chamadas de API detalhadas:
```python
import langchain
langchain.debug = True
Examine os resultados de busca brutos antes de passar para o LLM para identificar problemas de recuperação
Recursos Relacionados
LangChain Guia conceitual do Recuperador
LangChain Guias práticos do Recuperador
Rememberizer Documentação da API
Armazenamentos Vetoriais no Rememberizer
Criando um GPT do Rememberizer - Uma abordagem alternativa para integração de IA
Last updated