術語表
Rememberizer 中使用的術語和概念的綜合詞彙表
此詞彙表提供了 Rememberizer 文檔中使用的關鍵術語和概念的定義。當您遇到不熟悉的術語時,可以將其作為參考。
注意:此詞彙表代表 Rememberizer 的標準化術語。雖然您可能會在文檔中遇到輕微的變化,但這裡提供的術語和定義應被視為權威參考。
A
API 金鑰:用於以程式方式訪問 Rememberizer 的 API 端點的安全身份驗證令牌。API 金鑰主要用於向量存儲訪問和常見知識集成。
授權請求來源:一個安全設置,指定哪些域可以向 Rememberizer 發送 API 請求,以限制潛在的跨站請求偽造攻擊。
B
批次操作:在單一請求中處理多個項目(搜索、上傳等)以提高效率。Rememberizer 支持高容量工作負載的批次操作。
批次大小:在遷移、搜索或文檔攝取等操作中一起處理的項目數量,影響性能和資源使用。
C
Chunking: 將文件劃分為最佳大小的片段(通常為 512-2048 字節)的過程,並具有重疊邊界,以在向量搜索過程中保留上下文。
Client ID: 發給第三方應用程序的公共標識符,允許與 Rememberizer 進行 OAuth2 授權。
Client Secret: 與 Client ID 一起發出的私鑰,必須保持安全,並在 OAuth2 流程中用於驗證應用程序。
Collection-based Organization: Rememberizer 中向量存儲的組織方式,每個存儲都有自己的獨立集合來進行數據管理。
Common Knowledge: 用戶發布的信息,其他用戶或應用程序可以訪問,創建共享的知識資源。Common Knowledge 基於 Memento,並可以通過 API 訪問。在用戶界面中,有時也稱為「Shared Knowledge」。
Context Windows: 在搜索結果中與匹配片段一起包含的周圍內容,由 prev_chunks
和 next_chunks
參數控制。
Cosine Similarity: 通過找到向量之間的角度的餘弦來計算的相似性度量,作為 Rememberizer 中的默認搜索指標。
E
嵌入模型:一種從文本生成向量嵌入的 AI 模型。Rememberizer 支援多種嵌入模型,包括 OpenAI 的 text-embedding-3-large 和 text-embedding-3-small。
企業整合模式:在大型企業環境中實施 Rememberizer 的標準化方法,包括安全性、擴展性和合規性的架構設計。
G
全域設定:用於控制 Rememberizer 中所有連接應用的預設權限和行為的系統範圍配置。
H
HNSW (層次可導航小世界): 一種索引算法,為大型數據集提供更好的準確性,但需要更高的內存需求,在 Rememberizer 向量存儲中作為索引選項可用。
I
索引演算法:用於組織向量以便高效檢索的方法。Rememberizer 支援 IVFFLAT(預設)和 HNSW 演算法。
IVFFLAT:一種索引演算法,為向量資料庫提供良好的搜尋速度和準確性的平衡,作為 Rememberizer 的預設選擇。
K
資料來源:Rememberizer 中數據的各種來源,包括與 Google Drive、Slack、Dropbox 和 Gmail 等平台的整合。在某些上下文中也稱為「知識來源」或「整合」。
L
LangChain 整合: 使 Rememberizer 能夠在 LangChain 應用中作為檢索器的功能,支持 RAG(檢索增強生成)系統。
M
Memento: 一種過濾機制,用於控制與第三方應用程序共享的知識,允許用戶選擇性地共享特定文件、文檔或內容組。在用戶界面中有時稱為「Memento Filter」。
Memory Integration: 一個功能,使應用程序能夠將有價值的信息存儲在 Rememberizer 中以便稍後檢索,並具有可配置的讀取/寫入權限。在某些上下文中也稱為「Shared Memory」。
O
OAuth2 認證:用於第三方應用程式在用戶同意下訪問 Rememberizer 數據的標準授權協議,提供安全的委託訪問。在文檔中有時簡稱為「OAuth」。
R
RAG (檢索增強生成): 一種將檢索系統(如 Rememberizer)與生成模型結合的技術,以根據特定知識提供更準確、基於事實的回應。
自讀/自寫: 一種權限級別,應用程式只能訪問和修改其在 Rememberizer 中的自有記憶數據。
讀取所有/自寫: 一種權限級別,應用程式可以從所有應用程式中讀取記憶數據,但只能修改其自有的記憶數據。
重新索引: 在重大變更後重建向量索引的過程,以改善 Rememberizer 向量存儲中的搜索性能。
RememberizerRetriever: 與 Rememberizer 的語義搜索能力接口的特定 LangChain 檢索器類。
Rememberizer GPT: 一個自定義的 GPT 應用程式,與 Rememberizer 的 API 集成,以便在 ChatGPT 中訪問個人知識。
Rememberizer 向量存儲: 一個基於 PostgreSQL 的向量數據庫服務,具有 pgvector 擴展,處理文本數據的分塊、向量化和存儲。在 Rememberizer 文檔中,“向量存儲”和“向量數據庫”是可以互換使用的術語,其中“向量存儲”是首選術語。
S
搜索指標:用於計算向量之間相似性的數學方法。Rememberizer 支援餘弦相似度(預設)、內積和 L2(歐幾里得)距離。“距離”、“相似性”和“匹配”這些術語有時可以互換使用,以指代向量之間的關係緊密程度。
語義搜索:基於意義而非僅僅是關鍵字的搜索功能,允許即使術語不同也能找到概念上相關的結果。
共享記憶體:一個允許第三方應用程式在用戶的 Rememberizer 帳戶中存儲和訪問數據的系統,提供跨多個應用程式的持久性。
V
向量資料庫:一種專門的資料庫,優化用於高效存儲和檢索向量嵌入,實現語義搜索功能。
向量維度:向量嵌入的大小(通常為768-1536個數字),影響語義表示中捕捉的細節和細微差別。
向量嵌入:數字表示(數百個數字的列表),捕捉文本的語義意義,允許超越關鍵字匹配的相似性比較。在技術上下文中,通常簡稱為“嵌入”。
API 標頭約定
使用 Rememberizer API 時,應遵循以下標頭約定:
授權標頭:
Authorization: Bearer YOUR_JWT_TOKEN
API 金鑰標頭:
X-API-Key: YOUR_API_KEY
(如顯示的那樣大寫)內容類型標頭:
Content-Type: application/json
相關資源
有關關鍵概念的更深入解釋:
Last updated