Rememberizer Docs
Sign inSign upContact us
Tiếng Việt
Tiếng Việt
  • Tại sao lại là Rememberizer?
  • Bối cảnh
    • Vector Embeddings và Cơ sở dữ liệu Vector là gì?
    • Thuật ngữ
    • Thuật ngữ Chuẩn hóa
  • Sử Dụng Cá Nhân
    • Bắt Đầu
      • Tìm Kiếm Kiến Thức Của Bạn
      • Truy Cập Bộ Lọc Kỷ Niệm
      • Kiến Thức Chung
      • Quản Lý Kiến Thức Nhúng Của Bạn
  • Tích hợp
    • Ứng dụng Rememberizer
    • Tích hợp Rememberizer Slack
    • Tích hợp Rememberizer Google Drive
    • Tích hợp Rememberizer Dropbox
    • Tích hợp Rememberizer Gmail
    • Tích hợp Rememberizer Memory
    • Máy chủ Rememberizer MCP
    • Quản lý ứng dụng bên thứ ba
  • Tài nguyên cho nhà phát triển
    • Tổng quan về nhà phát triển
  • Tùy Chọn Tích Hợp
    • Đăng ký và sử dụng API Keys
    • Đăng ký ứng dụng Rememberizer
    • Ủy quyền cho ứng dụng Rememberizer
    • Tạo một Rememberizer GPT
    • Tích hợp LangChain
    • Vector Stores
    • Talk-to-Slack Ứng Dụng Web Mẫu
  • Tích hợp Doanh Nghiệp
    • Mô Hình Tích Hợp Doanh Nghiệp
  • Tham khảo API
    • Trang chính tài liệu API
    • Xác thực
  • API cốt lõi
    • Tìm kiếm tài liệu theo sự tương đồng ngữ nghĩa
    • Lấy tài liệu
    • Lấy nội dung tài liệu
    • Lấy nội dung Slack
    • Ghi nhớ nội dung vào Rememberizer
  • Tài khoản & Cấu hình
    • Lấy chi tiết tài khoản người dùng hiện tại
    • Danh sách các tích hợp nguồn dữ liệu có sẵn
    • Memento
    • Lấy tất cả kiến thức công khai đã thêm
  • API Lưu Trữ Vector
    • Tài liệu Lưu Trữ Vector
    • Lấy thông tin lưu trữ vector
    • Lấy danh sách tài liệu trong Lưu Trữ Vector
    • Lấy thông tin tài liệu
    • Thêm tài liệu văn bản mới vào Lưu Trữ Vector
    • Tải lên tệp vào Lưu Trữ Vector
    • Cập nhật nội dung tệp trong Lưu Trữ Vector
    • Xóa một tài liệu trong Lưu Trữ Vector
    • Tìm kiếm tài liệu Lưu Trữ Vector theo sự tương đồng ngữ nghĩa
  • Tài nguyên bổ sung
    • Thông báo
      • Điều khoản sử dụng
      • Chính sách bảo mật
      • B2B
        • Về Reddit Agent
  • Phiên bản
    • Trang ghi chú phát hành
  • Các bản phát hành năm 2025
    • 25 tháng 4, 2025
    • 18 tháng 4, 2025
    • 11 tháng 4, 2025
    • 4 tháng 4, 2025
    • 28 tháng 3, 2025
    • 21 tháng 3, 2025
    • 14 tháng 3, 2025
    • 17 tháng 1, 2025
  • Các bản phát hành năm 2024
    • 27 tháng 12 năm 2024
    • 20 tháng 12 năm 2024
    • 13 tháng 12 năm 2024
    • 6 tháng 12 năm 2024
  • 29 Tháng 11, 2024
  • 22 Tháng 11, 2024
  • 15 Tháng 11, 2024
  • 8 Tháng 11, 2024
  • 1 Tháng 11, 2024
  • 25 tháng 10 năm 2024
  • 18 tháng 10 năm 2024
  • 11 tháng 10 năm 2024
  • 4 tháng 10 năm 2024
  • 27 Tháng 9, 2024
  • 20 Tháng 9, 2024
  • 13 Tháng 9, 2024
  • 16 tháng 8 năm 2024
  • 9 tháng 8 năm 2024
  • 2 tháng 8 năm 2024
  • 26 Tháng 7, 2024
  • 12 Tháng 7, 2024
  • 28 tháng 6 năm 2024
  • 14 tháng 6 năm 2024
  • Ngày 31 tháng 5 năm 2024
  • Ngày 17 tháng 5 năm 2024
  • Ngày 10 tháng 5 năm 2024
  • 26 tháng 4, 2024
  • 19 tháng 4, 2024
  • 12 tháng 4, 2024
  • 5 tháng 4, 2024
  • 25 tháng 3 năm 2024
  • 18 tháng 3 năm 2024
  • 11 tháng 3 năm 2024
  • 4 tháng 3 năm 2024
  • 26 tháng 2 năm 2024
  • 19 tháng 2 năm 2024
  • 12 tháng 2 năm 2024
  • 5 tháng 2 năm 2024
  • 29 tháng 1 năm 2024
  • 22 tháng 1 năm 2024
  • 15 tháng 1 năm 2024
  • Tài liệu LLM
    • Tài liệu sẵn sàng LLM của Rememberizer
Powered by GitBook
On this page
  • Cách Rememberizer Sử Dụng Vector Embeddings
  • Hiểu Về Vector Embeddings
  • Vượt Qua Văn Bản: Nhúng Đa Phương Thức
  • Ứng Dụng Thực Tế
  • Cách Tìm Kiếm Vector của Rememberizer Khác với Tìm Kiếm Theo Từ Khóa
  • Tài nguyên Kỹ thuật
  • Nền Tảng Của AI Hiện Đại
  1. Bối cảnh

Vector Embeddings và Cơ sở dữ liệu Vector là gì?

Tại sao Rememberizer không chỉ là một cơ sở dữ liệu hoặc công cụ tìm kiếm từ khóa

PreviousBối cảnhNextThuật ngữ

Last updated 24 days ago

Rememberizer sử dụng vector embeddings trong các cơ sở dữ liệu vector để cho phép tìm kiếm sự tương đồng ngữ nghĩa trong các nguồn kiến thức của người dùng. Đây là một hình thức truy xuất thông tin tiên tiến và tinh vi hơn nhiều so với việc chỉ tìm kiếm từ khóa trong nội dung thông qua một công cụ tìm kiếm hoặc cơ sở dữ liệu truyền thống.

Cách Rememberizer Sử Dụng Vector Embeddings

Ở dạng tiên tiến nhất của chúng (như được sử dụng bởi Rememberizer), vector embeddings được tạo ra bởi các mô hình ngôn ngữ có kiến trúc tương tự như các AI LLMs (Mô Hình Ngôn Ngữ Lớn) mà hỗ trợ các mô hình GPT của OpenAI và dịch vụ ChatGPT, cũng như các mô hình/dịch vụ từ Google (Gemini), Anthropic (Claude), Meta (LLaMA) và những cái khác.

Hiểu Về Vector Embeddings

Vector embedding trông như thế nào? Hãy xem xét một tọa độ (x,y) trong hai chiều. Nếu nó đại diện cho một đường thẳng từ gốc đến điểm này, chúng ta có thể nghĩ về nó như một đường thẳng có hướng—nói cách khác, một vector trong hai chiều.

Trong bối cảnh của Rememberizer, một vector embedding thường là một danh sách gồm vài trăm số (thường là 768, 1024 hoặc 1536) đại diện cho một vector trong không gian nhiều chiều. Danh sách các số này có thể đại diện cho các trọng số trong một mô hình Transformer xác định ý nghĩa trong một cụm từ như "Một tia chớp từ trên trời rơi xuống." Đây về cơ bản là cùng một đại diện ý nghĩa cơ bản được sử dụng trong các mô hình như GPT-4. Kết quả là, một vector embedding tốt cho phép hiểu biết tinh vi giống như những gì chúng ta thấy trong các mô hình ngôn ngữ AI hiện đại.

Vượt Qua Văn Bản: Nhúng Đa Phương Thức

Nhúng vector có thể đại diện cho nhiều hơn chỉ văn bản—chúng cũng có thể mã hóa các loại dữ liệu khác như hình ảnh hoặc âm thanh. Với các mô hình được đào tạo đúng cách, bạn có thể so sánh giữa các loại phương tiện, cho phép một nhúng vector của văn bản được so sánh với một hình ảnh, hoặc ngược lại.

Hiện tại, Rememberizer cho phép tìm kiếm trong thành phần văn bản của tài liệu và kiến thức của người dùng. Các khả năng tìm kiếm từ văn bản đến hình ảnh và từ hình ảnh đến văn bản đang nằm trong lộ trình phát triển tương lai của Rememberizer.

Ứng Dụng Thực Tế

Các công ty công nghệ lớn tận dụng vector embeddings trong sản phẩm của họ:

Cách Tìm Kiếm Vector của Rememberizer Khác với Tìm Kiếm Theo Từ Khóa

Tìm kiếm theo từ khóa tìm các kết quả chính xác hoặc các từ đồng nghĩa đã được xác định trước. Ngược lại, tìm kiếm vector của Rememberizer tìm nội dung có liên quan về mặt khái niệm, ngay cả khi sử dụng thuật ngữ khác nhau. Ví dụ:

  • Một tìm kiếm từ khóa cho "chăm sóc chó" có thể bỏ lỡ một tài liệu liên quan về "bảo trì sức khỏe chó"

  • Tìm kiếm vector của Rememberizer sẽ nhận ra những khái niệm này là tương tự về mặt ngữ nghĩa và trả về cả hai

Khả năng này khiến Rememberizer trở nên đặc biệt mạnh mẽ trong việc truy xuất thông tin liên quan từ các nguồn kiến thức đa dạng.

Sắp ra mắt: Hình ảnh Quy trình Tìm kiếm Vector

Sơ đồ này sẽ minh họa quy trình tìm kiếm ngữ nghĩa hoàn chỉnh trong Rememberizer:

  • Chia nhỏ tài liệu và tiền xử lý

  • Quy trình tạo vector embedding

  • Lưu trữ trong cơ sở dữ liệu vector

  • Embedding truy vấn tìm kiếm

  • Tính toán độ tương đồng

  • So sánh song song với tìm kiếm từ khóa truyền thống

Tài nguyên Kỹ thuật

Để hiểu sâu về cách hoạt động của vector embeddings và vector databases:

Nền Tảng Của AI Hiện Đại

Các công nghệ đứng sau vector embeddings đã phát triển đáng kể theo thời gian:

Một khía cạnh đáng chú ý của các mô hình dựa trên Transformer là tính chất mở rộng của chúng—khi chúng sử dụng nhiều dữ liệu hơn và có nhiều tham số hơn, khả năng hiểu biết và năng lực của chúng cải thiện đáng kể. Tính chất mở rộng này đã được quan sát thấy với các mô hình như GPT-2 và đã thúc đẩy sự tiến bộ nhanh chóng của các khả năng AI.

Điều này khiến cho vector embeddings trở thành một lựa chọn tự nhiên để khám phá kiến thức liên quan để đưa vào bối cảnh của các prompt mô hình AI. Các công nghệ này bổ sung cho nhau và có liên quan về mặt khái niệm. Vì lý do này, hầu hết các nhà cung cấp LLMs dưới dạng dịch vụ cũng sản xuất vector embeddings dưới dạng dịch vụ (ví dụ: hoặc ).

Google sử dụng vector embeddings để cung cấp khả năng tìm kiếm văn bản (text-to-text) và tìm kiếm hình ảnh (text-to-image) ()

Meta (Facebook) đã triển khai embeddings cho tìm kiếm trên mạng xã hội của họ ()

Snapchat sử dụng vector embeddings để hiểu ngữ cảnh và phục vụ quảng cáo mục tiêu ()

Bắt đầu với

Pinecone (một dịch vụ cơ sở dữ liệu vector) cung cấp

Thư viện FAISS của Meta: "FAISS: A Library for Efficient Similarity Search and Clustering of Dense Vectors" của Johnson, Douze, và Jégou (2017) cung cấp cái nhìn toàn diện về tìm kiếm tương đồng vector hiệu quả ()

Bài báo năm 2017 "Attention Is All You Need" () đã giới thiệu kiến trúc Transformer, nền tảng cho các LLM hiện đại và các mô hình embedding tiên tiến

"Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality" (, ) đã thiết lập lý thuyết cho việc tìm kiếm tương đồng hiệu quả trong các không gian có chiều cao

BERT (2018, ) đã chứng minh sức mạnh của việc đào tạo hai chiều cho các nhiệm vụ hiểu ngôn ngữ

Các phương pháp trước đây như GloVe (2014, ) và Word2Vec (2013, ) đã đặt nền móng cho các vector từ ngữ thần kinh

Để biết chi tiết về việc triển khai kỹ thuật và hướng dẫn dành cho nhà phát triển về việc sử dụng vector stores với Rememberizer, hãy xem .

Các nhà nghiên cứu của Google là những người đứng sau kiến trúc Transformer ban đầu được mô tả trong "Attention Is All You Need" (), mặc dù nhiều tổ chức đã xây dựng và mở rộng công trình nền tảng này kể từ đó.

endpoint embeddings của Together AI
vector embeddings văn bản và mã của OpenAI
reference
reference
reference
tổng quan từ Hugging Face
giới thiệu tốt về vector embeddings
GitHub repository
tham khảo
1998
2010
tham khảo
tham khảo
tham khảo
Vector Stores
tham khảo bằng sáng chế
Hình ảnh trực quan về không gian vector đa chiều
Hình ảnh trực quan về không gian vector đa chiều