术语表
Rememberizer中使用的术语和概念的综合词汇表
本术语表提供了 Rememberizer 文档中使用的关键术语和概念的定义。当您遇到不熟悉的术语时,可以将其作为参考。
注意:本术语表代表了 Rememberizer 的标准化术语。虽然您可能会在文档中遇到轻微的变化,但此处提供的术语和定义应被视为权威参考。
A
API 密钥:用于以编程方式访问 Rememberizer 的 API 端点的安全认证令牌。API 密钥主要用于向量存储访问和常识集成。
授权请求来源:一个安全设置,指定哪些域可以向 Rememberizer 发出 API 请求,从而限制潜在的跨站请求伪造攻击。
B
批量操作:在单个请求中处理多个项目(搜索、上传等)以提高效率。Rememberizer 支持高容量工作负载的批量操作。
批量大小:在迁移、搜索或文档摄取等操作中一起处理的项目数量,影响性能和资源使用。
C
分块:将文档划分为最佳大小的片段(通常为512-2048字节),并具有重叠边界,以在向量搜索中保留上下文的过程。
客户端ID:发放给第三方应用程序的公共标识符,使其能够与Rememberizer进行OAuth2授权。
客户端密钥:与客户端ID一起发放的私钥,必须保持安全,并在OAuth2流程中用于验证应用程序。
基于集合的组织:在Rememberizer中,向量存储的组织方式,每个存储都有自己隔离的数据管理集合。
常识:用户发布的信息,其他用户或应用程序可以访问,创建共享知识资源。常识基于一个Memento,并可以通过API访问。在用户界面中,有时也称为“共享知识”。
上下文窗口:在搜索结果中与匹配片段一起包含的周围内容,由prev_chunks
和next_chunks
参数控制。
余弦相似度:通过找到向量之间角度的余弦来计算的相似度度量,作为Rememberizer中的默认搜索指标。
E
嵌入模型:一种从文本生成向量嵌入的 AI 模型。Rememberizer 支持多种嵌入模型,包括 OpenAI 的 text-embedding-3-large 和 text-embedding-3-small。
企业集成模式:在大规模企业环境中实施 Rememberizer 的标准化方法,包括安全性、扩展性和合规性的架构设计。
G
全局设置:用于控制 Rememberizer 中所有连接应用的默认权限和行为的系统范围配置。
H
HNSW(分层可导航小世界):一种索引算法,提供对大型数据集更好的准确性,但需要更高的内存要求,作为 Rememberizer 向量存储中的索引选项可用。
I
索引算法:用于组织向量以实现高效检索的方法。Rememberizer 支持 IVFFLAT(默认)和 HNSW 算法。
IVFFLAT:一种索引算法,为向量数据库提供了搜索速度和准确性的良好平衡,在 Rememberizer 中作为默认使用。
K
数据来源:Rememberizer 中数据的各种来源,包括与 Google Drive、Slack、Dropbox 和 Gmail 等平台的集成。在某些上下文中也称为“知识来源”或“集成”。
L
LangChain 集成:允许 Rememberizer 在 LangChain 应用中作为检索器使用的功能,支持 RAG(检索增强生成)系统。
M
备忘录:一种过滤机制,控制与第三方应用程序共享哪些知识,允许用户选择性地共享特定文件、文档或内容组。在用户界面中有时称为“备忘录过滤器”。
记忆集成:一种功能,使应用程序能够将有价值的信息存储在 Rememberizer 中以便后续检索,并具有可配置的读/写权限。在某些情况下也称为“共享记忆”。
O
OAuth2 认证:用于第三方应用程序在用户同意下访问 Rememberizer 数据的标准授权协议,提供安全的委托访问。在文档中有时缩写为“OAuth”。
R
RAG(检索增强生成):一种将检索系统(如 Rememberizer)与生成模型相结合的技术,以提供基于特定知识的更准确、扎实的响应。
自读/自写:一种权限级别,应用程序只能访问和修改其在 Rememberizer 中的自有记忆数据。
读所有/自写:一种权限级别,应用程序可以读取所有应用程序的记忆数据,但只能修改其自有记忆数据。
重新索引:在重大更改后重建向量索引的过程,以提高 Rememberizer 向量存储中的搜索性能。
RememberizerRetriever:与 Rememberizer 的语义搜索功能接口的特定 LangChain 检索器类。
Rememberizer GPT:一个自定义的 GPT 应用程序,集成了 Rememberizer 的 API,以便在 ChatGPT 中访问个人知识。
Rememberizer 向量存储:基于 PostgreSQL 的向量数据库服务,具有 pgvector 扩展,处理文本数据的分块、向量化和存储。在 Rememberizer 文档中,“向量存储”和“向量数据库”可以互换使用,其中“向量存储”是首选术语。
S
搜索指标:用于计算向量之间相似性的数学方法。Rememberizer 支持余弦相似度(默认)、内积和 L2(欧几里得)距离。“距离”、“相似性”和“匹配”这几个术语有时可以互换使用,以指代向量之间的关系紧密程度。
语义搜索:一种基于意义而非仅仅关键词的搜索功能,允许即使术语不同也能找到概念上相关的结果。
共享内存:一种允许第三方应用程序在用户的 Rememberizer 账户中存储和访问数据的系统,提供跨多个应用程序的持久性。
V
向量数据库:一种专门优化用于高效存储和检索向量嵌入的数据库,能够实现语义搜索功能。
向量维度:向量嵌入的大小(通常为768-1536个数字),影响语义表示中捕捉的细节和细微差别。
向量嵌入:数值表示(几百个数字的列表),捕捉文本的语义含义,允许进行超越关键词匹配的相似性比较。在技术上下文中通常简单称为“嵌入”。
API 头部约定
使用 Rememberizer API 时,应遵循以下头部约定:
授权头部:
Authorization: Bearer YOUR_JWT_TOKEN
API 密钥头部:
X-API-Key: YOUR_API_KEY
(如所示大写)内容类型头部:
Content-Type: application/json
相关资源
有关关键概念的更深入解释:
Last updated