# 什么是向量嵌入和向量数据库？

Rememberizer 使用向量嵌入在向量数据库中实现对用户知识源的语义相似性搜索。这是一种比通过传统搜索引擎或数据库简单地查找内容中的关键词更为先进和细致的信息检索形式。

<figure><img src="https://1371168417-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F4gvX7KIUy0DhcQETj8Ux%2Fuploads%2Fgit-blob-a9213fe58e84b790a6531fcbac5c30e1b424f316%2Fmultidimensional_space.png?alt=media" alt="多维向量空间可视化"><figcaption><p>多维向量空间的可视化</p></figcaption></figure>

## 如何使用 Rememberizer 的向量嵌入

在其最先进的形式中（如 Rememberizer 所使用），向量嵌入是由语言模型创建的，这些模型的架构类似于支撑 OpenAI 的 GPT 模型和 ChatGPT 服务的 AI LLM（大型语言模型），以及来自 Google（Gemini）、Anthropic（Claude）、Meta（LLaMA）等的模型/服务。

这使得向量嵌入成为发现相关知识以纳入 AI 模型提示上下文的自然选择。这些技术是互补的，并在概念上相关。因此，大多数作为服务提供 LLM 的供应商也提供作为服务的向量嵌入（例如：[Together AI 的嵌入端点](https://www.together.ai/blog/embeddings-endpoint-release) 或 [OpenAI 的文本和代码嵌入](https://openai.com/blog/introducing-text-and-code-embeddings)）。

## 理解向量嵌入

向量嵌入是什么样的？考虑一个二维坐标 (x,y)。如果它表示从原点到这个点的线，我们可以把它看作是一条有方向的线——换句话说，一个 *二维向量*。

在 Rememberizer 的上下文中，向量嵌入通常是一个包含几百个数字的列表（通常是 768、1024 或 1536），表示高维空间中的一个向量。这个数字列表可以表示 Transformer 模型中的权重，这些权重定义了短语的含义，例如“晴天霹雳”。这在根本上与 GPT-4 等模型中使用的意义表示是相同的。因此，一个好的向量嵌入能够实现我们在现代 AI 语言模型中看到的同样复杂的理解。

## 超越文本：多模态嵌入

向量嵌入不仅可以表示文本——它们还可以编码其他类型的数据，如图像或声音。通过适当训练的模型，您可以跨媒体类型进行比较，从而允许文本的向量嵌入与图像进行比较，反之亦然。

目前，Rememberizer 允许在用户文档和知识的文本组件中进行搜索。文本到图像和图像到文本的搜索功能在 Rememberizer 的未来开发路线图上。

## 现实世界的应用

主要科技公司在其产品中利用向量嵌入：

* **Google** 使用向量嵌入来支持他们的文本搜索（文本到文本）和图像搜索（文本到图像）功能 ([reference](https://cloud.google.com/blog/topics/developers-practitioners/meet-ais-multitool-vector-embeddings))
* **Meta (Facebook)** 已经为他们的社交网络搜索实现了嵌入 ([reference](https://research.facebook.com/publications/embedding-based-retrieval-in-facebook-search/))
* **Snapchat** 利用向量嵌入来理解上下文并提供针对性的广告 ([reference](https://eng.snap.com/machine-learning-snap-ad-ranking))

## Rememberizer 的向量搜索与关键词搜索的区别

关键词搜索找到精确匹配或预定同义词。相比之下，Rememberizer 的向量搜索找到概念上相关的内容，即使使用不同的术语。例如：

* 对于“狗护理”的关键词搜索可能会错过一份关于“犬类健康维护”的相关文档
* Rememberizer 的向量搜索会将这些概念识别为语义相似，并返回两者

这种能力使得 Rememberizer 在从多样的知识来源中检索相关信息时特别强大。

即将推出：向量搜索过程可视化

该图将说明 Rememberizer 中完整的语义搜索工作流程：

* 文档分块和预处理
* 向量嵌入生成过程
* 存储在向量数据库中
* 搜索查询嵌入
* 相似性匹配计算
* 与传统关键词搜索的并排比较

## 技术资源

要深入了解向量嵌入和向量数据库的工作原理：

* 从 [Hugging Face 的概述](https://huggingface.co/blog/getting-started-with-embeddings) 开始
* Pinecone（一个向量数据库服务）提供了一个很好的 [向量嵌入介绍](https://www.pinecone.io/learn/vector-embeddings/)
* Meta 的 FAISS 库：“FAISS: A Library for Efficient Similarity Search and Clustering of Dense Vectors” 由 Johnson、Douze 和 Jégou（2017）撰写，提供了关于高效向量相似性搜索的全面见解 ([GitHub 仓库](https://github.com/facebookresearch/faiss))

## 现代人工智能的基础

向量嵌入背后的技术随着时间的推移发生了显著变化：

* 2017年的论文“注意力机制是你所需要的一切” ([reference](https://arxiv.org/abs/1706.03762)) 引入了驱动现代大型语言模型和先进嵌入模型的Transformer架构
* “近似最近邻：消除维度诅咒的方向” ([1998](https://dl.acm.org/doi/10.1145/276698.276876), [2010](https://www.theoryofcomputing.org/articles/v008a014/v008a014.pdf)) 建立了高维空间中高效相似性搜索的理论
* BERT (2018, [reference](https://arxiv.org/abs/1810.04805)) 展示了双向训练在语言理解任务中的强大能力
* 早期的方法如GloVe (2014, [reference](https://nlp.stanford.edu/pubs/glove.pdf)) 和Word2Vec (2013, [reference](https://arxiv.org/abs/1301.3781)) 为神经词嵌入奠定了基础

有关使用Rememberizer的向量存储的技术实现细节和面向开发者的指导，请参见[向量存储](https://docs.rememberizer.ai/zh-cn/kai-fa-zhe-zi-yuan/integration-options/vector-stores)。

{% hint style="info" %}
基于Transformer模型的一个显著特点是它们的扩展性——随着使用更多数据和拥有更多参数，它们的理解能力和能力显著提高。这种扩展性在像GPT-2这样的模型中得到了观察，并推动了人工智能能力的快速发展。

谷歌研究人员是“注意力机制是你所需要的一切”中描述的原始Transformer架构的背后推手，尽管许多组织此后在此基础工作上进行了扩展和发展。
{% endhint %}
