Thuật ngữ
Một từ điển toàn diện về các thuật ngữ và khái niệm được sử dụng trong Rememberizer
Bảng từ vựng này cung cấp định nghĩa cho các thuật ngữ và khái niệm chính được sử dụng trong tài liệu Rememberizer. Sử dụng nó như một tài liệu tham khảo khi bạn gặp phải các thuật ngữ không quen thuộc.
Lưu ý: Bảng từ vựng này đại diện cho thuật ngữ chuẩn hóa cho Rememberizer. Mặc dù bạn có thể gặp một số biến thể nhỏ trong tài liệu, các thuật ngữ và định nghĩa được cung cấp ở đây nên được coi là tài liệu tham khảo chính thức.
A
API Key: Một mã thông báo xác thực an toàn được sử dụng để truy cập các điểm cuối API của Rememberizer một cách lập trình. Các mã API chủ yếu được sử dụng để truy cập kho vector và tích hợp kiến thức chung.
Authorized Request Origin: Một cài đặt bảo mật xác định các miền nào có thể thực hiện các yêu cầu API đến Rememberizer, hạn chế các cuộc tấn công giả mạo yêu cầu giữa các trang.
B
Batch Operations: Xử lý nhiều mục (tìm kiếm, tải lên, v.v.) trong một yêu cầu duy nhất để cải thiện hiệu suất. Rememberizer hỗ trợ các thao tác theo lô cho khối lượng công việc lớn.
Batch Size: Số lượng mục được xử lý cùng nhau trong các thao tác như di chuyển, tìm kiếm hoặc nạp tài liệu, ảnh hưởng đến hiệu suất và mức sử dụng tài nguyên.
C
Chunking: Quá trình chia tài liệu thành các phần có kích thước tối ưu (thường là 512-2048 byte) với các ranh giới chồng chéo để bảo tồn ngữ cảnh trong quá trình tìm kiếm vector.
Client ID: Một định danh công khai được cấp cho các ứng dụng bên thứ ba cho phép xác thực OAuth2 với Rememberizer.
Client Secret: Một khóa riêng được cấp cùng với Client ID phải được giữ an toàn và được sử dụng để xác thực ứng dụng trong các luồng OAuth2.
Collection-based Organization: Cách mà các kho vector được tổ chức trong Rememberizer, với mỗi kho có một bộ sưu tập riêng biệt để quản lý dữ liệu.
Common Knowledge: Thông tin được công bố bởi người dùng có thể được truy cập bởi những người dùng hoặc ứng dụng khác, tạo ra một nguồn tài nguyên kiến thức chung. Common Knowledge dựa trên một Memento và có thể được truy cập qua API. Cũng đôi khi được gọi là "Shared Knowledge" trong giao diện người dùng.
Context Windows: Nội dung xung quanh được bao gồm với các phần khớp trong kết quả tìm kiếm, được kiểm soát bởi các tham số prev_chunks
và next_chunks
.
Cosine Similarity: Một thước đo độ tương đồng giữa các vector được tính bằng cách tìm cosine của góc giữa chúng, được sử dụng làm chỉ số tìm kiếm mặc định trong Rememberizer.
E
Mô hình Nhúng: Một mô hình AI tạo ra các nhúng vector từ văn bản. Rememberizer hỗ trợ một số mô hình nhúng, bao gồm text-embedding-3-large và text-embedding-3-small của OpenAI.
Mô hình Tích hợp Doanh nghiệp: Các phương pháp chuẩn hóa để triển khai Rememberizer trong các môi trường doanh nghiệp quy mô lớn, bao gồm các thiết kế kiến trúc cho bảo mật, mở rộng và tuân thủ.
G
Cài đặt Toàn cầu: Cấu hình toàn hệ thống để kiểm soát quyền và hành vi mặc định trên tất cả các ứng dụng kết nối trong Rememberizer.
H
HNSW (Thế giới nhỏ có thể điều hướng theo cấp bậc): Một thuật toán lập chỉ mục cung cấp độ chính xác tốt hơn cho các tập dữ liệu lớn với chi phí yêu cầu bộ nhớ cao hơn, có sẵn như một tùy chọn lập chỉ mục trong Rememberizer Vector Stores.
I
Thuật toán Lập chỉ mục: Phương pháp được sử dụng để tổ chức các vector cho việc truy xuất hiệu quả. Rememberizer hỗ trợ các thuật toán IVFFLAT (mặc định) và HNSW.
IVFFLAT: Một thuật toán lập chỉ mục cung cấp sự cân bằng tốt giữa tốc độ tìm kiếm và độ chính xác cho các cơ sở dữ liệu vector, được sử dụng làm mặc định trong Rememberizer.
K
Nguồn Dữ Liệu: Các nguồn gốc khác nhau của dữ liệu trong Rememberizer, bao gồm các tích hợp với các nền tảng như Google Drive, Slack, Dropbox và Gmail. Cũng được gọi là "Nguồn Kiến Thức" hoặc "Tích Hợp" trong một số ngữ cảnh.
L
Tích hợp LangChain: Chức năng cho phép Rememberizer được sử dụng như một trình truy xuất trong các ứng dụng LangChain, hỗ trợ hệ thống RAG (Tạo ra Tăng cường Truy xuất).
M
Memento: Một cơ chế lọc kiểm soát kiến thức nào được chia sẻ với các ứng dụng bên thứ ba, cho phép người dùng chia sẻ có chọn lọc các tệp, tài liệu hoặc nhóm nội dung cụ thể. Đôi khi được gọi là "Bộ lọc Memento" trong giao diện người dùng.
Memory Integration: Một tính năng cho phép các ứng dụng lưu trữ thông tin quý giá trong Rememberizer để truy xuất sau này, với quyền đọc/ghi có thể cấu hình. Cũng được gọi là "Bộ nhớ Chia sẻ" trong một số ngữ cảnh.
O
Xác thực OAuth2: Giao thức ủy quyền tiêu chuẩn được sử dụng cho các ứng dụng bên thứ ba để truy cập dữ liệu Rememberizer với sự đồng ý của người dùng, cung cấp quyền truy cập ủy quyền an toàn. Đôi khi được viết tắt thành "OAuth" trong tài liệu.
R
RAG (Tăng cường Tìm kiếm và Tạo sinh): Một kỹ thuật kết hợp các hệ thống tìm kiếm (như Rememberizer) với các mô hình sinh để cung cấp các phản hồi chính xác hơn, có căn cứ dựa trên kiến thức cụ thể.
Đọc của riêng/Viết của riêng: Một cấp độ quyền cho phép các ứng dụng chỉ có thể truy cập và sửa đổi dữ liệu bộ nhớ của chính chúng trong Rememberizer.
Đọc tất cả/Viết của riêng: Một cấp độ quyền cho phép các ứng dụng có thể đọc dữ liệu bộ nhớ từ tất cả các ứng dụng nhưng chỉ có thể sửa đổi dữ liệu bộ nhớ của chính chúng.
Tái lập chỉ mục: Quá trình xây dựng lại các chỉ mục vector sau những thay đổi đáng kể để cải thiện hiệu suất tìm kiếm trong Rememberizer Vector Stores.
RememberizerRetriever: Lớp retriever LangChain cụ thể tương tác với khả năng tìm kiếm ngữ nghĩa của Rememberizer.
Rememberizer GPT: Một ứng dụng GPT tùy chỉnh tích hợp với API của Rememberizer để cung cấp quyền truy cập vào kiến thức cá nhân trong ChatGPT.
Rememberizer Vector Store: Một dịch vụ cơ sở dữ liệu vector dựa trên PostgreSQL với phần mở rộng pgvector xử lý việc phân đoạn, vector hóa và lưu trữ dữ liệu văn bản. Các thuật ngữ "Vector Store" và "Cơ sở dữ liệu Vector" được sử dụng thay thế cho nhau trong tài liệu của Rememberizer, với "Vector Store" là thuật ngữ được ưa chuộng hơn.
S
Search Metric: Phương pháp toán học được sử dụng để tính toán độ tương đồng giữa các vector. Rememberizer hỗ trợ độ tương đồng cosine (mặc định), tích trong và khoảng cách L2 (Euclid). Các thuật ngữ "khoảng cách", "độ tương đồng" và "khớp" đôi khi được sử dụng thay thế cho nhau để chỉ cách mà các vector liên quan đến nhau.
Semantic Search: Chức năng tìm kiếm tìm nội dung dựa trên ý nghĩa thay vì chỉ từ khóa, cho phép kết quả liên quan về mặt khái niệm ngay cả khi thuật ngữ khác nhau.
Shared Memory: Một hệ thống cho phép các ứng dụng bên thứ ba lưu trữ và truy cập dữ liệu trong tài khoản Rememberizer của người dùng, cung cấp tính liên tục qua nhiều ứng dụng.
V
Cơ sở dữ liệu vector: Một cơ sở dữ liệu chuyên biệt được tối ưu hóa để lưu trữ và truy xuất các vector embeddings một cách hiệu quả, cho phép khả năng tìm kiếm ngữ nghĩa.
Kích thước vector: Kích thước của các vector embeddings (thường là 768-1536 số), ảnh hưởng đến chi tiết và sắc thái được ghi lại trong biểu diễn ngữ nghĩa.
Vector embeddings: Các biểu diễn số (danh sách gồm vài trăm số) ghi lại ý nghĩa ngữ nghĩa của văn bản, cho phép so sánh độ tương đồng vượt ra ngoài việc khớp từ khóa. Thường được gọi đơn giản là "Embeddings" trong các ngữ cảnh kỹ thuật.
Quy Tắc Tiêu Đề API
Khi sử dụng các API của Rememberizer, các quy tắc tiêu đề sau đây nên được tuân theo:
Tiêu Đề Ủy Quyền:
Authorization: Bearer YOUR_JWT_TOKEN
Tiêu Đề Khóa API:
X-API-Key: YOUR_API_KEY
(viết hoa như hình)Tiêu Đề Loại Nội Dung:
Content-Type: application/json
Tài nguyên liên quan
Để có những giải thích sâu hơn về các khái niệm chính:
Last updated