Rememberizer Docs
登入报名联系我们
简体中文
简体中文
  • 为什么选择 Rememberizer?
  • 背景
    • 什么是向量嵌入和向量数据库?
    • 术语表
    • 标准化术语
  • 个人使用
    • 开始使用
      • 搜索你的知识
      • 纪念品过滤访问
      • 常见知识
      • 管理你的嵌入知识
  • 集成
    • Rememberizer 应用
    • Rememberizer Slack 集成
    • Rememberizer Google Drive 集成
    • Rememberizer Dropbox 集成
    • Rememberizer Gmail 集成
    • Rememberizer Memory 集成
    • Rememberizer MCP 服务器
    • 管理第三方应用
  • 开发者资源
    • 开发者概述
  • 集成选项
    • 注册和使用 API 密钥
    • 注册 Rememberizer 应用
    • 授权 Rememberizer 应用
    • 创建一个 Rememberizer GPT
    • LangChain 集成
    • 向 Slack 发送消息的示例 Web 应用
  • 企业集成
    • 企业集成模式
  • API 参考
    • API 文档首页
    • 认证
  • 核心 API
    • 按语义相似性搜索文档
    • 检索文档
    • 检索文档内容
    • 检索 Slack 内容
    • 将内容记忆到 Rememberizer
  • 账户与配置
    • 检索当前用户账户详情
    • 列出可用的数据源集成
    • 备忘录
    • 获取所有添加的公共知识
  • 向量存储 API
    • 向量存储文档
    • 获取向量存储信息
    • 获取向量存储中的文档列表
    • 获取文档信息
    • 向向量存储添加新文本文档
    • 向向量存储上传文件
    • 更新向量存储中的文件内容
    • 在向量存储中移除文档
    • 通过语义相似性搜索向量存储文档
  • 其他资源
    • 通知
      • 使用条款
      • 隐私政策
      • B2B
        • 关于 Reddit Agent
  • 发布
    • 发布说明首页
  • 2025 发布
    • 2025年4月25日
    • 2025年4月18日
    • 2025年4月11日
    • 2025年4月4日
    • 2025年3月28日
    • 2025年3月21日
    • 2025年3月14日
    • 2025年1月17日
  • 2024 发布
    • 2024年12月27日
    • 2024年12月20日
    • 2024年12月13日
    • 2024年12月6日
  • 2024年11月29日
  • 2024年11月22日
  • 2024年11月15日
  • 2024年11月8日
  • 2024年11月1日
  • 2024年10月25日
  • 2024年10月18日
  • 2024年10月11日
  • 2024年10月4日
  • 2024年9月27日
  • 2024年9月20日
  • 2024年9月13日
  • 2024年8月16日
  • 2024年8月9日
  • 2024年8月2日
  • 2024年7月26日
  • 2024年7月12日
  • 2024年6月28日
  • 2024年6月14日
  • 2024年5月31日
  • 2024年5月17日
  • 2024年5月10日
  • 2024年4月26日
  • 2024年4月19日
  • 2024年4月12日
  • 2024年4月5日
  • 2024年3月25日
  • 2024年3月18日
  • 2024年3月11日
  • 2024年3月4日
  • 2024年2月26日
  • 2024年2月19日
  • 2024年2月12日
  • 2024年2月5日
  • 2024年1月29日
  • 2024年1月22日
  • 2024年1月15日
  • LLM 文档
    • Rememberizer LLM 准备文档
Powered by GitBook
On this page
  • 如何使用 Rememberizer 的向量嵌入
  • 理解向量嵌入
  • 超越文本:多模态嵌入
  • 现实世界的应用
  • Rememberizer 的向量搜索与关键词搜索的区别
  • 技术资源
  • 现代人工智能的基础
  1. 背景

什么是向量嵌入和向量数据库?

为什么 Rememberizer 不仅仅是一个数据库或关键词搜索引擎

Previous背景Next术语表

Last updated 23 days ago

Rememberizer 使用向量嵌入在向量数据库中实现对用户知识源的语义相似性搜索。这是一种比通过传统搜索引擎或数据库简单地查找内容中的关键词更为先进和细致的信息检索形式。

如何使用 Rememberizer 的向量嵌入

在其最先进的形式中(如 Rememberizer 所使用),向量嵌入是由语言模型创建的,这些模型的架构类似于支撑 OpenAI 的 GPT 模型和 ChatGPT 服务的 AI LLM(大型语言模型),以及来自 Google(Gemini)、Anthropic(Claude)、Meta(LLaMA)等的模型/服务。

理解向量嵌入

向量嵌入是什么样的?考虑一个二维坐标 (x,y)。如果它表示从原点到这个点的线,我们可以把它看作是一条有方向的线——换句话说,一个 二维向量。

在 Rememberizer 的上下文中,向量嵌入通常是一个包含几百个数字的列表(通常是 768、1024 或 1536),表示高维空间中的一个向量。这个数字列表可以表示 Transformer 模型中的权重,这些权重定义了短语的含义,例如“晴天霹雳”。这在根本上与 GPT-4 等模型中使用的意义表示是相同的。因此,一个好的向量嵌入能够实现我们在现代 AI 语言模型中看到的同样复杂的理解。

超越文本:多模态嵌入

向量嵌入不仅可以表示文本——它们还可以编码其他类型的数据,如图像或声音。通过适当训练的模型,您可以跨媒体类型进行比较,从而允许文本的向量嵌入与图像进行比较,反之亦然。

目前,Rememberizer 允许在用户文档和知识的文本组件中进行搜索。文本到图像和图像到文本的搜索功能在 Rememberizer 的未来开发路线图上。

现实世界的应用

主要科技公司在其产品中利用向量嵌入:

Rememberizer 的向量搜索与关键词搜索的区别

关键词搜索找到精确匹配或预定同义词。相比之下,Rememberizer 的向量搜索找到概念上相关的内容,即使使用不同的术语。例如:

  • 对于“狗护理”的关键词搜索可能会错过一份关于“犬类健康维护”的相关文档

  • Rememberizer 的向量搜索会将这些概念识别为语义相似,并返回两者

这种能力使得 Rememberizer 在从多样的知识来源中检索相关信息时特别强大。

即将推出:向量搜索过程可视化

该图将说明 Rememberizer 中完整的语义搜索工作流程:

  • 文档分块和预处理

  • 向量嵌入生成过程

  • 存储在向量数据库中

  • 搜索查询嵌入

  • 相似性匹配计算

  • 与传统关键词搜索的并排比较

技术资源

要深入了解向量嵌入和向量数据库的工作原理:

现代人工智能的基础

向量嵌入背后的技术随着时间的推移发生了显著变化:

基于Transformer模型的一个显著特点是它们的扩展性——随着使用更多数据和拥有更多参数,它们的理解能力和能力显著提高。这种扩展性在像GPT-2这样的模型中得到了观察,并推动了人工智能能力的快速发展。

谷歌研究人员是“注意力机制是你所需要的一切”中描述的原始Transformer架构的背后推手,尽管许多组织此后在此基础工作上进行了扩展和发展。

这使得向量嵌入成为发现相关知识以纳入 AI 模型提示上下文的自然选择。这些技术是互补的,并在概念上相关。因此,大多数作为服务提供 LLM 的供应商也提供作为服务的向量嵌入(例如: 或 )。

Google 使用向量嵌入来支持他们的文本搜索(文本到文本)和图像搜索(文本到图像)功能 ()

Meta (Facebook) 已经为他们的社交网络搜索实现了嵌入 ()

Snapchat 利用向量嵌入来理解上下文并提供针对性的广告 ()

从 开始

Pinecone(一个向量数据库服务)提供了一个很好的

Meta 的 FAISS 库:“FAISS: A Library for Efficient Similarity Search and Clustering of Dense Vectors” 由 Johnson、Douze 和 Jégou(2017)撰写,提供了关于高效向量相似性搜索的全面见解 ()

2017年的论文“注意力机制是你所需要的一切” () 引入了驱动现代大型语言模型和先进嵌入模型的Transformer架构

“近似最近邻:消除维度诅咒的方向” (, ) 建立了高维空间中高效相似性搜索的理论

BERT (2018, ) 展示了双向训练在语言理解任务中的强大能力

早期的方法如GloVe (2014, ) 和Word2Vec (2013, ) 为神经词嵌入奠定了基础

有关使用Rememberizer的向量存储的技术实现细节和面向开发者的指导,请参见。

Together AI 的嵌入端点
OpenAI 的文本和代码嵌入
reference
reference
reference
Hugging Face 的概述
向量嵌入介绍
GitHub 仓库
reference
1998
2010
reference
reference
reference
向量存储
多维向量空间的可视化
多维向量空间可视化