# 术语表

本术语表提供了 Rememberizer 文档中使用的关键术语和概念的定义。当您遇到不熟悉的术语时，可以将其作为参考。

> **注意**：本术语表代表了 Rememberizer 的标准化术语。虽然您可能会在文档中遇到轻微的变化，但此处提供的术语和定义应被视为权威参考。

## A

**API 密钥**：用于以编程方式访问 Rememberizer 的 API 端点的安全认证令牌。API 密钥主要用于向量存储访问和常识集成。

**授权请求来源**：一个安全设置，指定哪些域可以向 Rememberizer 发出 API 请求，从而限制潜在的跨站请求伪造攻击。

## B

**批量操作**：在单个请求中处理多个项目（搜索、上传等）以提高效率。Rememberizer 支持高容量工作负载的批量操作。

**批量大小**：在迁移、搜索或文档摄取等操作中一起处理的项目数量，影响性能和资源使用。

## C

**分块**：将文档划分为最佳大小的片段（通常为512-2048字节），并具有重叠边界，以在向量搜索中保留上下文的过程。

**客户端ID**：发放给第三方应用程序的公共标识符，使其能够与Rememberizer进行OAuth2授权。

**客户端密钥**：与客户端ID一起发放的私钥，必须保持安全，并在OAuth2流程中用于验证应用程序。

**基于集合的组织**：在Rememberizer中，向量存储的组织方式，每个存储都有自己隔离的数据管理集合。

**常识**：用户发布的信息，其他用户或应用程序可以访问，创建共享知识资源。常识基于一个Memento，并可以通过API访问。在用户界面中，有时也称为“共享知识”。

**上下文窗口**：在搜索结果中与匹配片段一起包含的周围内容，由`prev_chunks`和`next_chunks`参数控制。

**余弦相似度**：通过找到向量之间角度的余弦来计算的相似度度量，作为Rememberizer中的默认搜索指标。

## E

**嵌入模型**：一种从文本生成向量嵌入的 AI 模型。Rememberizer 支持多种嵌入模型，包括 OpenAI 的 text-embedding-3-large 和 text-embedding-3-small。

**企业集成模式**：在大规模企业环境中实施 Rememberizer 的标准化方法，包括安全性、扩展性和合规性的架构设计。

## G

**全局设置**：用于控制 Rememberizer 中所有连接应用的默认权限和行为的系统范围配置。

## H

**HNSW（分层可导航小世界）**：一种索引算法，提供对大型数据集更好的准确性，但需要更高的内存要求，作为 Rememberizer 向量存储中的索引选项可用。

## I

**索引算法**：用于组织向量以实现高效检索的方法。Rememberizer 支持 IVFFLAT（默认）和 HNSW 算法。

**IVFFLAT**：一种索引算法，为向量数据库提供了搜索速度和准确性的良好平衡，在 Rememberizer 中作为默认使用。

## K

**数据来源**：Rememberizer 中数据的各种来源，包括与 Google Drive、Slack、Dropbox 和 Gmail 等平台的集成。在某些上下文中也称为“知识来源”或“集成”。

## L

**LangChain 集成**：允许 Rememberizer 在 LangChain 应用中作为检索器使用的功能，支持 RAG（检索增强生成）系统。

## M

**备忘录**：一种过滤机制，控制与第三方应用程序共享哪些知识，允许用户选择性地共享特定文件、文档或内容组。在用户界面中有时称为“备忘录过滤器”。

**记忆集成**：一种功能，使应用程序能够将有价值的信息存储在 Rememberizer 中以便后续检索，并具有可配置的读/写权限。在某些情况下也称为“共享记忆”。

## O

**OAuth2 认证**：用于第三方应用程序在用户同意下访问 Rememberizer 数据的标准授权协议，提供安全的委托访问。在文档中有时缩写为“OAuth”。

## R

**RAG（检索增强生成）**：一种将检索系统（如 Rememberizer）与生成模型相结合的技术，以提供基于特定知识的更准确、扎实的响应。

**自读/自写**：一种权限级别，应用程序只能访问和修改其在 Rememberizer 中的自有记忆数据。

**读所有/自写**：一种权限级别，应用程序可以读取所有应用程序的记忆数据，但只能修改其自有记忆数据。

**重新索引**：在重大更改后重建向量索引的过程，以提高 Rememberizer 向量存储中的搜索性能。

**RememberizerRetriever**：与 Rememberizer 的语义搜索功能接口的特定 LangChain 检索器类。

**Rememberizer GPT**：一个自定义的 GPT 应用程序，集成了 Rememberizer 的 API，以便在 ChatGPT 中访问个人知识。

**Rememberizer 向量存储**：基于 PostgreSQL 的向量数据库服务，具有 pgvector 扩展，处理文本数据的分块、向量化和存储。在 Rememberizer 文档中，“向量存储”和“向量数据库”可以互换使用，其中“向量存储”是首选术语。

## S

**搜索指标**：用于计算向量之间相似性的数学方法。Rememberizer 支持余弦相似度（默认）、内积和 L2（欧几里得）距离。“距离”、“相似性”和“匹配”这几个术语有时可以互换使用，以指代向量之间的关系紧密程度。

**语义搜索**：一种基于意义而非仅仅关键词的搜索功能，允许即使术语不同也能找到概念上相关的结果。

**共享内存**：一种允许第三方应用程序在用户的 Rememberizer 账户中存储和访问数据的系统，提供跨多个应用程序的持久性。

## V

**向量数据库**：一种专门优化用于高效存储和检索向量嵌入的数据库，能够实现语义搜索功能。

**向量维度**：向量嵌入的大小（通常为768-1536个数字），影响语义表示中捕捉的细节和细微差别。

**向量嵌入**：数值表示（几百个数字的列表），捕捉文本的语义含义，允许进行超越关键词匹配的相似性比较。在技术上下文中通常简单称为“嵌入”。

## API 头部约定

使用 Rememberizer API 时，应遵循以下头部约定：

* **授权头部**：`Authorization: Bearer YOUR_JWT_TOKEN`
* **API 密钥头部**：`X-API-Key: YOUR_API_KEY`（如所示大写）
* **内容类型头部**：`Content-Type: application/json`

## 相关资源

有关关键概念的更深入解释：

* [什么是向量嵌入和向量数据库？](/zh-cn/background/what-are-vector-embeddings-and-vector-databases.md) - 详细解释 Rememberizer 背后的技术
* [向量存储](/zh-cn/kai-fa-zhe-zi-yuan/integration-options/vector-stores.md) - Rememberizer 向量数据库的技术实现细节
* [备忘录过滤访问](/zh-cn/ge-ren-shi-yong/personal/mementos-filter-access.md) - 如何控制对您知识的访问


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.rememberizer.ai/zh-cn/background/glossary.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.