Vector Embeddings và Cơ sở dữ liệu Vector là gì?
Tại sao Rememberizer không chỉ là một cơ sở dữ liệu hoặc công cụ tìm kiếm từ khóa
Last updated
Tại sao Rememberizer không chỉ là một cơ sở dữ liệu hoặc công cụ tìm kiếm từ khóa
Last updated
Rememberizer sử dụng vector embeddings trong các cơ sở dữ liệu vector để cho phép tìm kiếm sự tương đồng ngữ nghĩa trong các nguồn kiến thức của người dùng. Đây là một hình thức truy xuất thông tin tiên tiến và tinh vi hơn nhiều so với việc chỉ tìm kiếm từ khóa trong nội dung thông qua một công cụ tìm kiếm hoặc cơ sở dữ liệu truyền thống.
Ở dạng tiên tiến nhất của chúng (như được sử dụng bởi Rememberizer), vector embeddings được tạo ra bởi các mô hình ngôn ngữ có kiến trúc tương tự như các AI LLMs (Mô Hình Ngôn Ngữ Lớn) mà hỗ trợ các mô hình GPT của OpenAI và dịch vụ ChatGPT, cũng như các mô hình/dịch vụ từ Google (Gemini), Anthropic (Claude), Meta (LLaMA) và những cái khác.
Vector embedding trông như thế nào? Hãy xem xét một tọa độ (x,y) trong hai chiều. Nếu nó đại diện cho một đường thẳng từ gốc đến điểm này, chúng ta có thể nghĩ về nó như một đường thẳng có hướng—nói cách khác, một vector trong hai chiều.
Trong bối cảnh của Rememberizer, một vector embedding thường là một danh sách gồm vài trăm số (thường là 768, 1024 hoặc 1536) đại diện cho một vector trong không gian nhiều chiều. Danh sách các số này có thể đại diện cho các trọng số trong một mô hình Transformer xác định ý nghĩa trong một cụm từ như "Một tia chớp từ trên trời rơi xuống." Đây về cơ bản là cùng một đại diện ý nghĩa cơ bản được sử dụng trong các mô hình như GPT-4. Kết quả là, một vector embedding tốt cho phép hiểu biết tinh vi giống như những gì chúng ta thấy trong các mô hình ngôn ngữ AI hiện đại.
Nhúng vector có thể đại diện cho nhiều hơn chỉ văn bản—chúng cũng có thể mã hóa các loại dữ liệu khác như hình ảnh hoặc âm thanh. Với các mô hình được đào tạo đúng cách, bạn có thể so sánh giữa các loại phương tiện, cho phép một nhúng vector của văn bản được so sánh với một hình ảnh, hoặc ngược lại.
Hiện tại, Rememberizer cho phép tìm kiếm trong thành phần văn bản của tài liệu và kiến thức của người dùng. Các khả năng tìm kiếm từ văn bản đến hình ảnh và từ hình ảnh đến văn bản đang nằm trong lộ trình phát triển tương lai của Rememberizer.
Các công ty công nghệ lớn tận dụng vector embeddings trong sản phẩm của họ:
Tìm kiếm theo từ khóa tìm các kết quả chính xác hoặc các từ đồng nghĩa đã được xác định trước. Ngược lại, tìm kiếm vector của Rememberizer tìm nội dung có liên quan về mặt khái niệm, ngay cả khi sử dụng thuật ngữ khác nhau. Ví dụ:
Một tìm kiếm từ khóa cho "chăm sóc chó" có thể bỏ lỡ một tài liệu liên quan về "bảo trì sức khỏe chó"
Tìm kiếm vector của Rememberizer sẽ nhận ra những khái niệm này là tương tự về mặt ngữ nghĩa và trả về cả hai
Khả năng này khiến Rememberizer trở nên đặc biệt mạnh mẽ trong việc truy xuất thông tin liên quan từ các nguồn kiến thức đa dạng.
Sắp ra mắt: Hình ảnh Quy trình Tìm kiếm Vector
Sơ đồ này sẽ minh họa quy trình tìm kiếm ngữ nghĩa hoàn chỉnh trong Rememberizer:
Chia nhỏ tài liệu và tiền xử lý
Quy trình tạo vector embedding
Lưu trữ trong cơ sở dữ liệu vector
Embedding truy vấn tìm kiếm
Tính toán độ tương đồng
So sánh song song với tìm kiếm từ khóa truyền thống
Để hiểu sâu về cách hoạt động của vector embeddings và vector databases:
Các công nghệ đứng sau vector embeddings đã phát triển đáng kể theo thời gian:
Điều này khiến cho vector embeddings trở thành một lựa chọn tự nhiên để khám phá kiến thức liên quan để đưa vào bối cảnh của các prompt mô hình AI. Các công nghệ này bổ sung cho nhau và có liên quan về mặt khái niệm. Vì lý do này, hầu hết các nhà cung cấp LLMs dưới dạng dịch vụ cũng sản xuất vector embeddings dưới dạng dịch vụ (ví dụ: hoặc ).
Google sử dụng vector embeddings để cung cấp khả năng tìm kiếm văn bản (text-to-text) và tìm kiếm hình ảnh (text-to-image) ()
Meta (Facebook) đã triển khai embeddings cho tìm kiếm trên mạng xã hội của họ ()
Snapchat sử dụng vector embeddings để hiểu ngữ cảnh và phục vụ quảng cáo mục tiêu ()
Bắt đầu với
Pinecone (một dịch vụ cơ sở dữ liệu vector) cung cấp
Thư viện FAISS của Meta: "FAISS: A Library for Efficient Similarity Search and Clustering of Dense Vectors" của Johnson, Douze, và Jégou (2017) cung cấp cái nhìn toàn diện về tìm kiếm tương đồng vector hiệu quả ()
Bài báo năm 2017 "Attention Is All You Need" () đã giới thiệu kiến trúc Transformer, nền tảng cho các LLM hiện đại và các mô hình embedding tiên tiến
"Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality" (, ) đã thiết lập lý thuyết cho việc tìm kiếm tương đồng hiệu quả trong các không gian có chiều cao
BERT (2018, ) đã chứng minh sức mạnh của việc đào tạo hai chiều cho các nhiệm vụ hiểu ngôn ngữ
Các phương pháp trước đây như GloVe (2014, ) và Word2Vec (2013, ) đã đặt nền móng cho các vector từ ngữ thần kinh
Để biết chi tiết về việc triển khai kỹ thuật và hướng dẫn dành cho nhà phát triển về việc sử dụng vector stores với Rememberizer, hãy xem .
Các nhà nghiên cứu của Google là những người đứng sau kiến trúc Transformer ban đầu được mô tả trong "Attention Is All You Need" (), mặc dù nhiều tổ chức đã xây dựng và mở rộng công trình nền tảng này kể từ đó.