Rememberizer Docs
登入報名聯絡我們
繁體中文
繁體中文
  • 為什麼選擇 Rememberizer?
  • 背景
    • 什麼是向量嵌入和向量數據庫?
    • 術語表
    • 標準化術語
  • 個人使用
    • 開始使用
      • 搜尋你的知識
      • 紀念品過濾訪問
      • 常見知識
      • 管理你的嵌入知識
  • 整合
    • Rememberizer 應用程式
    • Rememberizer Slack 整合
    • Rememberizer Google Drive 整合
    • Rememberizer Dropbox 整合
    • Rememberizer Gmail 整合
    • Rememberizer Memory 整合
    • Rememberizer MCP 伺服器
    • 管理第三方應用程式
  • 開發者資源
    • 開發者概覽
  • 整合選項
    • 註冊和使用 API 金鑰
    • 註冊 Rememberizer 應用程式
    • 授權 Rememberizer 應用程式
    • 創建 Rememberizer GPT
    • LangChain 整合
    • 向 Slack 談話的範例網頁應用程式
  • 企業整合
    • 企業整合模式
  • API 參考
    • API 文件首頁
    • 身份驗證
  • 核心 API
    • 依語意相似性搜尋文件
    • 檢索文件
    • 檢索文件內容
    • 檢索 Slack 內容
    • 將內容記憶到 Rememberizer
  • 帳戶與配置
    • 檢索當前用戶帳戶詳細信息
    • 列出可用的數據源集成
    • 備忘錄
    • 獲取所有已添加的公共知識
  • 向量存儲 API
    • 向量存儲文檔
    • 獲取向量存儲信息
    • 獲取向量存儲中的文檔列表
    • 獲取文檔信息
    • 向向量存儲添加新文本文檔
    • 將文件上傳到向量存儲
    • 更新向量存儲中的文件內容
    • 在向量存儲中移除文檔
    • 按語義相似性搜索向量存儲文檔
  • 其他資源
    • 通知
      • 使用條款
      • 隱私政策
      • B2B
        • 關於 Reddit 代理
  • 發布
    • 發布說明首頁
  • 2025 發布
    • 2025年4月25日
    • 2025年4月18日
    • 2025年4月11日
    • 2025年4月4日
    • 2025年3月28日
    • 2025年3月21日
    • 2025年3月14日
    • 2025年1月17日
  • 2024 版本
    • 2024年12月27日
    • 2024年12月20日
    • 2024年12月13日
    • 2024年12月6日
  • 2024年11月29日
  • 2024年11月22日
  • 2024年11月15日
  • 2024年11月8日
  • 2024年11月1日
  • 2024年10月25日
  • 2024年10月18日
  • 2024年10月11日
  • 2024年10月4日
  • 2024年9月27日
  • 2024年9月20日
  • 2024年9月13日
  • 2024年8月16日
  • 2024年8月9日
  • 2024年8月2日
  • 2024年7月26日
  • 2024年7月12日
  • 2024年6月28日
  • 2024年6月14日
  • 2024年5月31日
  • 2024年5月17日
  • 2024年5月10日
  • 2024年4月26日
  • 2024年4月19日
  • 2024年4月12日
  • 2024年4月5日
  • 2024年3月25日
  • 2024年3月18日
  • 2024年3月11日
  • 2024年3月4日
  • 2024年2月26日
  • 2024年2月19日
  • 2024年2月12日
  • 2024年2月5日
  • 2024年1月29日
  • 2024年1月22日
  • 2024年1月15日
  • LLM 文檔
    • Rememberizer LLM 準備文檔
Powered by GitBook
On this page
  • 如何 Rememberizer 使用向量嵌入
  • 理解向量嵌入
  • 超越文本:多模態嵌入
  • 實際應用
  • Rememberizer 的向量搜索與關鍵字搜索的區別
  • 技術資源
  • 現代 AI 的基礎
  1. 背景

什麼是向量嵌入和向量數據庫?

為什麼 Rememberizer 不僅僅是一個資料庫或關鍵字搜尋引擎

Previous背景Next術語表

Last updated 23 days ago

Rememberizer 使用向量嵌入在向量資料庫中,以便在用戶知識來源中進行語義相似性的搜索。這是一種比單純通過傳統搜索引擎或資料庫查找內容中的關鍵字更為先進和細緻的信息檢索形式。

如何 Rememberizer 使用向量嵌入

在其最先進的形式中(如 Rememberizer 所使用的),向量嵌入是由語言模型創建的,這些模型的架構類似於支撐 OpenAI 的 GPT 模型和 ChatGPT 服務的 AI LLM(大型語言模型),以及來自 Google(Gemini)、Anthropic(Claude)、Meta(LLaMA)等的模型/服務。

理解向量嵌入

向量嵌入看起來像什麼?考慮在二維中的一個坐標 (x,y)。如果它表示從原點到這一點的線,我們可以將其視為一條具有方向的線——換句話說,二維中的一個向量。

在 Rememberizer 的上下文中,向量嵌入通常是一個由幾百個數字(通常是 768、1024 或 1536)組成的列表,代表高維空間中的一個向量。這個數字列表可以表示 Transformer 模型中的權重,這些權重定義了短語的含義,例如「一陣突如其來的閃電」。這在根本上是與 GPT-4 等模型中使用的意義表示相同。因此,一個好的向量嵌入能夠實現我們在現代 AI 語言模型中看到的同樣複雜的理解。

超越文本:多模態嵌入

向量嵌入不僅可以表示文本——它們還可以編碼其他類型的數據,例如圖像或聲音。通過適當訓練的模型,您可以跨媒介類型進行比較,允許文本的向量嵌入與圖像進行比較,反之亦然。

目前,Rememberizer 使得在用戶文檔和知識的文本組件中進行搜索成為可能。文本到圖像和圖像到文本的搜索能力在 Rememberizer 的未來發展路線圖上。

實際應用

主要科技公司在其產品中利用向量嵌入:

Rememberizer 的向量搜索與關鍵字搜索的區別

關鍵字搜索尋找精確匹配或預定的同義詞。相比之下,Rememberizer 的向量搜索尋找概念上相關的內容,即使使用不同的術語。例如:

  • 對於「狗護理」的關鍵字搜索可能會錯過一份關於「犬類健康維護」的相關文件

  • Rememberizer 的向量搜索會將這些概念識別為語義相似並返回兩者

這一能力使得 Rememberizer 在從多樣的知識來源檢索相關信息方面特別強大。

即將推出:向量搜索過程可視化

這個圖表將展示 Rememberizer 中完整的語義搜索工作流程:

  • 文檔分塊和預處理

  • 向量嵌入生成過程

  • 存儲在向量數據庫中

  • 搜索查詢嵌入

  • 相似性匹配計算

  • 與傳統關鍵字搜索的並排比較

技術資源

要深入了解向量嵌入和向量數據庫的工作原理:

現代 AI 的基礎

向量嵌入背後的技術隨著時間的推移顯著演變:

Transformer 基礎模型的一個顯著特點是它們的擴展性——隨著使用更多數據和擁有更多參數,它們的理解和能力顯著提高。這一擴展性特徵在 GPT-2 等模型中得到了觀察,並推動了 AI 能力的快速進步。

這使得向量嵌入成為發現相關知識以納入 AI 模型提示上下文的自然選擇。這些技術是互補的,並在概念上相關。因此,大多數作為服務提供 LLM 的供應商也提供作為服務的向量嵌入(例如: 或 )。

Google 使用向量嵌入來驅動其文本搜索(文本對文本)和圖像搜索(文本對圖像)功能 ()

Meta (Facebook) 已經為其社交網絡搜索實施了嵌入 ()

Snapchat 利用向量嵌入來理解上下文並提供針對性的廣告 ()

從 開始

Pinecone(向量數據庫服務)提供了良好的

Meta 的 FAISS 庫:由 Johnson、Douze 和 Jégou(2017)撰寫的 "FAISS: A Library for Efficient Similarity Search and Clustering of Dense Vectors" 提供了有關高效向量相似性搜索的全面見解 ()

2017 年的論文「注意力即所有你需要的」 () 介紹了驅動現代 LLM 和先進嵌入模型的 Transformer 架構

「近似最近鄰:朝著消除維度詛咒的方向」 (, ) 建立了高維空間中高效相似性搜索的理論

BERT (2018, ) 展示了雙向訓練在語言理解任務中的強大能力

早期方法如 GloVe (2014, ) 和 Word2Vec (2013, ) 為神經詞嵌入奠定了基礎

有關技術實施細節和針對開發者使用 Rememberizer 的向量存儲的指導,請參見 。

谷歌研究人員是「注意力即所有你需要的」 () 中描述的原始 Transformer 架構的背後推動者,儘管許多組織隨後在此基礎工作上進行了擴展和發展。

Together AI 的嵌入端點
OpenAI 的文本和代碼嵌入
reference
reference
reference
Hugging Face 的概述
向量嵌入介紹
GitHub repository
reference
1998
2010
reference
reference
reference
Vector Stores
patent reference
多維向量空間的可視化
多維向量空間可視化