術語表

Rememberizer 中使用的術語和概念的綜合詞彙表

此詞彙表提供了 Rememberizer 文檔中使用的關鍵術語和概念的定義。當您遇到不熟悉的術語時,可以將其作為參考。

注意:此詞彙表代表 Rememberizer 的標準化術語。雖然您可能會在文檔中遇到輕微的變化,但這裡提供的術語和定義應被視為權威參考。

A

API 金鑰:用於以程式方式訪問 Rememberizer 的 API 端點的安全身份驗證令牌。API 金鑰主要用於向量存儲訪問和常見知識集成。

授權請求來源:一個安全設置,指定哪些域可以向 Rememberizer 發送 API 請求,以限制潛在的跨站請求偽造攻擊。

B

批次操作:在單一請求中處理多個項目(搜索、上傳等)以提高效率。Rememberizer 支持高容量工作負載的批次操作。

批次大小:在遷移、搜索或文檔攝取等操作中一起處理的項目數量,影響性能和資源使用。

C

Chunking: 將文件劃分為最佳大小的片段(通常為 512-2048 字節)的過程,並具有重疊邊界,以在向量搜索過程中保留上下文。

Client ID: 發給第三方應用程序的公共標識符,允許與 Rememberizer 進行 OAuth2 授權。

Client Secret: 與 Client ID 一起發出的私鑰,必須保持安全,並在 OAuth2 流程中用於驗證應用程序。

Collection-based Organization: Rememberizer 中向量存儲的組織方式,每個存儲都有自己的獨立集合來進行數據管理。

Common Knowledge: 用戶發布的信息,其他用戶或應用程序可以訪問,創建共享的知識資源。Common Knowledge 基於 Memento,並可以通過 API 訪問。在用戶界面中,有時也稱為「Shared Knowledge」。

Context Windows: 在搜索結果中與匹配片段一起包含的周圍內容,由 prev_chunksnext_chunks 參數控制。

Cosine Similarity: 通過找到向量之間的角度的餘弦來計算的相似性度量,作為 Rememberizer 中的默認搜索指標。

E

嵌入模型:一種從文本生成向量嵌入的 AI 模型。Rememberizer 支援多種嵌入模型,包括 OpenAI 的 text-embedding-3-large 和 text-embedding-3-small。

企業整合模式:在大型企業環境中實施 Rememberizer 的標準化方法,包括安全性、擴展性和合規性的架構設計。

G

全域設定:用於控制 Rememberizer 中所有連接應用的預設權限和行為的系統範圍配置。

H

HNSW (層次可導航小世界): 一種索引算法,為大型數據集提供更好的準確性,但需要更高的內存需求,在 Rememberizer 向量存儲中作為索引選項可用。

I

索引演算法:用於組織向量以便高效檢索的方法。Rememberizer 支援 IVFFLAT(預設)和 HNSW 演算法。

IVFFLAT:一種索引演算法,為向量資料庫提供良好的搜尋速度和準確性的平衡,作為 Rememberizer 的預設選擇。

K

資料來源:Rememberizer 中數據的各種來源,包括與 Google Drive、Slack、Dropbox 和 Gmail 等平台的整合。在某些上下文中也稱為「知識來源」或「整合」。

L

LangChain 整合: 使 Rememberizer 能夠在 LangChain 應用中作為檢索器的功能,支持 RAG(檢索增強生成)系統。

M

Memento: 一種過濾機制,用於控制與第三方應用程序共享的知識,允許用戶選擇性地共享特定文件、文檔或內容組。在用戶界面中有時稱為「Memento Filter」。

Memory Integration: 一個功能,使應用程序能夠將有價值的信息存儲在 Rememberizer 中以便稍後檢索,並具有可配置的讀取/寫入權限。在某些上下文中也稱為「Shared Memory」。

O

OAuth2 認證:用於第三方應用程式在用戶同意下訪問 Rememberizer 數據的標準授權協議,提供安全的委託訪問。在文檔中有時簡稱為「OAuth」。

R

RAG (檢索增強生成): 一種將檢索系統(如 Rememberizer)與生成模型結合的技術,以根據特定知識提供更準確、基於事實的回應。

自讀/自寫: 一種權限級別,應用程式只能訪問和修改其在 Rememberizer 中的自有記憶數據。

讀取所有/自寫: 一種權限級別,應用程式可以從所有應用程式中讀取記憶數據,但只能修改其自有的記憶數據。

重新索引: 在重大變更後重建向量索引的過程,以改善 Rememberizer 向量存儲中的搜索性能。

RememberizerRetriever: 與 Rememberizer 的語義搜索能力接口的特定 LangChain 檢索器類。

Rememberizer GPT: 一個自定義的 GPT 應用程式,與 Rememberizer 的 API 集成,以便在 ChatGPT 中訪問個人知識。

Rememberizer 向量存儲: 一個基於 PostgreSQL 的向量數據庫服務,具有 pgvector 擴展,處理文本數據的分塊、向量化和存儲。在 Rememberizer 文檔中,“向量存儲”和“向量數據庫”是可以互換使用的術語,其中“向量存儲”是首選術語。

S

搜索指標:用於計算向量之間相似性的數學方法。Rememberizer 支援餘弦相似度(預設)、內積和 L2(歐幾里得)距離。“距離”、“相似性”和“匹配”這些術語有時可以互換使用,以指代向量之間的關係緊密程度。

語義搜索:基於意義而非僅僅是關鍵字的搜索功能,允許即使術語不同也能找到概念上相關的結果。

共享記憶體:一個允許第三方應用程式在用戶的 Rememberizer 帳戶中存儲和訪問數據的系統,提供跨多個應用程式的持久性。

V

向量資料庫:一種專門的資料庫,優化用於高效存儲和檢索向量嵌入,實現語義搜索功能。

向量維度:向量嵌入的大小(通常為768-1536個數字),影響語義表示中捕捉的細節和細微差別。

向量嵌入:數字表示(數百個數字的列表),捕捉文本的語義意義,允許超越關鍵字匹配的相似性比較。在技術上下文中,通常簡稱為“嵌入”。

API 標頭約定

使用 Rememberizer API 時,應遵循以下標頭約定:

  • 授權標頭Authorization: Bearer YOUR_JWT_TOKEN

  • API 金鑰標頭X-API-Key: YOUR_API_KEY(如顯示的那樣大寫)

  • 內容類型標頭Content-Type: application/json

相關資源

有關關鍵概念的更深入解釋:

Last updated