Tải tệp lên Cửa hàng Vector
Tải nội dung tệp lên Vector Store với các thao tác theo lô
Tải tệp lên một Vector Store
Upload files to a vector store.
The ID of the vector store.
The API key for authentication.
The files to upload.
Files uploaded successfully.
Some files failed to upload.
Ví dụ Yêu cầu
Phương thức trợ giúp để xác định loại nội dung
def get_content_type(filename) ext = File.extname(filename).downcase case ext when '.pdf' then 'application/pdf' when '.doc' then 'application/msword' when '.docx' then 'application/vnd.openxmlformats-officedocument.wordprocessingml.document' when '.txt' then 'text/plain' when '.md' then 'text/markdown' when '.json' then 'application/json' else 'application/octet-stream' end end
Ví dụ sử dụng
result = upload_files('vs_abc123', ['/path/to/document1.pdf', '/path/to/document2.docx']) puts result
Nếu một số tệp không tải lên được, chúng sẽ được liệt kê trong mảng errors:
Xác thực
Điểm cuối này yêu cầu xác thực bằng cách sử dụng khóa API trong tiêu đề x-api-key.
Các định dạng tệp được hỗ trợ
PDF (
.pdf)Microsoft Word (
.doc,.docx)Microsoft Excel (
.xls,.xlsx)Microsoft PowerPoint (
.ppt,.pptx)Tệp văn bản (
.txt)Markdown (
.md)JSON (
.json)HTML (
.html,.htm)
Giới Hạn Kích Thước Tệp
Giới hạn kích thước tệp cá nhân: 50MB
Giới hạn kích thước yêu cầu tổng: 100MB
Số lượng tệp tối đa mỗi yêu cầu: 20
Phản hồi Lỗi
400
Yêu Cầu Không Hợp Lệ - Không có tệp nào được cung cấp hoặc định dạng yêu cầu không hợp lệ
401
Không Được Ủy Quyền - Khóa API không hợp lệ hoặc bị thiếu
404
Không Tìm Thấy - Không tìm thấy Vector Store
413
Tải Lượng Quá Lớn - Các tệp vượt quá giới hạn kích thước
415
Loại Phương Tiện Không Hỗ Trợ - Định dạng tệp không được hỗ trợ
500
Lỗi Máy Chủ Nội Bộ
207
Đa Trạng Thái - Một số tệp đã được tải lên thành công, nhưng một số khác đã thất bại
Trạng Thái Xử Lý
Các tệp được chấp nhận ban đầu với trạng thái processing. Bạn có thể kiểm tra trạng thái xử lý của các tài liệu bằng cách sử dụng điểm cuối Lấy Danh Sách Tài Liệu Trong Một Vector Store. Trạng thái cuối cùng sẽ là một trong các trạng thái sau:
done: Tài liệu đã được xử lý thành côngerror: Đã xảy ra lỗi trong quá trình xử lýprocessing: Tài liệu vẫn đang được xử lý
Thời gian xử lý phụ thuộc vào kích thước và độ phức tạp của tệp. Thời gian xử lý điển hình là từ 30 giây đến 5 phút cho mỗi tài liệu.
Các hoạt động theo lô
Để tải lên nhiều tệp đến Vector Store của bạn một cách hiệu quả, Rememberizer hỗ trợ các hoạt động theo lô. Cách tiếp cận này giúp tối ưu hóa hiệu suất khi xử lý một số lượng lớn tài liệu.
Triển Khai Tải Lên Theo Lô
{% tabs %} {% tab title="Python" %}
{% endtab %}
{% tab title="JavaScript" %}
{% endtab %}
{% tab title="Ruby" %}
Thực Hành Tải Lên Theo Lô Tốt Nhất
Để tối ưu hóa hiệu suất và độ tin cậy khi tải lên khối lượng lớn tệp:
Quản Lý Kích Thước Lô: Giữ kích thước lô từ 5-10 tệp để đạt hiệu suất tối ưu. Quá nhiều tệp trong một yêu cầu duy nhất làm tăng nguy cơ bị hết thời gian chờ.
Thực Hiện Giới Hạn Tốc Độ: Thêm độ trễ giữa các lô (khuyến nghị 2-3 giây) để tránh chạm vào giới hạn tốc độ API.
Thêm Logic Thử Lại Lỗi: Đối với các hệ thống sản xuất, triển khai logic thử lại cho các tải lên thất bại với phương pháp tăng dần.
Xác Thực Loại Tệp: Lọc trước các tệp để đảm bảo chúng là loại được hỗ trợ trước khi cố gắng tải lên.
Giám Sát Tiến Trình Lô: Đối với các ứng dụng hướng tới người dùng, cung cấp phản hồi tiến trình về các hoạt động lô.
Xử Lý Thành Công Một Phần: API có thể trả về mã trạng thái 207 cho thành công một phần. Luôn kiểm tra trạng thái từng tài liệu.
Dọn Dẹp Tài Nguyên: Đảm bảo tất cả các tay cầm tệp được đóng đúng cách, đặc biệt khi xảy ra lỗi.
Tối Ưu Hóa Song Song: Đối với các tải lên rất lớn (nghìn tệp), xem xét nhiều quy trình lô đồng thời nhắm đến các kho vector khác nhau, sau đó kết hợp kết quả sau nếu cần.
Triển Khai Kiểm Tra Tính Toàn Vẹn: Đối với dữ liệu quan trọng, xác minh tính toàn vẹn của tệp trước và sau khi tải lên bằng cách sử dụng kiểm tra tính toàn vẹn.
Ghi Nhận Kết Quả Toàn Diện: Duy trì nhật ký chi tiết của tất cả các hoạt động tải lên để khắc phục sự cố.
Bằng cách tuân theo những thực hành tốt nhất này, bạn có thể quản lý hiệu quả việc tiếp nhận tài liệu quy mô lớn vào các kho vector của mình.
Last updated