벡터 저장소

이 가이드는 개발자로서 Rememberizer 벡터 저장소를 사용하는 방법을 이해하는 데 도움이 될 것입니다.

벡터 저장소

Rememberizer 벡터 저장소는 벡터 데이터를 처리하는 과정을 간소화하여 텍스트 입력에 집중하고 검색 및 데이터 분석과 같은 다양한 응용 프로그램을 위해 벡터의 힘을 활용할 수 있도록 합니다.

소개

Rememberizer 벡터 저장소는 벡터 임베딩의 복잡성을 추상화하면서 벡터 데이터를 처리하기 위한 사용하기 쉬운 인터페이스를 제공합니다. pgvector 확장을 사용하는 PostgreSQL로 구동되는 Rememberizer 벡터 저장소는 텍스트와 직접 작업할 수 있게 해줍니다. 이 서비스는 텍스트 데이터를 청크화하고, 벡터화하며, 저장하는 작업을 처리하여 귀하가 핵심 애플리케이션 로직에 집중할 수 있도록 합니다.

벡터 임베딩 및 벡터 데이터베이스 뒤에 있는 이론적 개념에 대한 더 깊은 이해를 원하시면 벡터 임베딩과 벡터 데이터베이스란 무엇인가요?를 참조하세요.

기술 개요

벡터 스토어의 작동 방식

Rememberizer 벡터 스토어는 텍스트를 의미론적 의미를 포착하는 고차원 벡터 표현(임베딩)으로 변환합니다. 이를 통해 다음과 같은 기능이 가능합니다:

  1. 의미 기반 검색: 키워드뿐만 아니라 의미에 따라 문서 찾기

  2. 유사성 매칭: 개념적으로 관련된 콘텐츠 식별

  3. 효율적인 검색: 대규모 데이터셋에서 관련 정보 신속하게 찾기

주요 구성 요소

  • 문서 처리: 텍스트는 맥락 보존을 위해 겹치는 경계를 가진 최적 크기의 청크로 분할됩니다.

  • 벡터화: 청크는 최첨단 모델을 사용하여 임베딩으로 변환됩니다.

  • 인덱싱: 전문 알고리즘이 벡터를 효율적인 유사성 검색을 위해 정리합니다.

  • 쿼리 처리: 검색 쿼리는 벡터화되어 저장된 임베딩과 비교됩니다.

아키텍처

Rememberizer는 다음을 사용하여 벡터 저장소를 구현합니다:

  • pgvector 확장을 사용하는 PostgreSQL: 효율적인 벡터 저장 및 검색을 위해

  • 컬렉션 기반 조직: 각 벡터 저장소는 고유한 격리된 컬렉션을 가집니다

  • API 기반 접근: 모든 작업을 위한 간단한 RESTful 엔드포인트

시작하기

벡터 스토어 생성

  1. 대시보드에서 벡터 스토어 섹션으로 이동합니다.

  2. "새 벡터 스토어 생성"을 클릭합니다:

    • 세부 정보를 입력하라는 양식이 나타납니다.

  3. 세부 정보 입력:

    • 이름: 벡터 스토어에 대한 고유한 이름을 제공합니다.

    • 설명: 벡터 스토어에 대한 간략한 설명을 작성합니다.

    • 임베딩 모델: 텍스트를 벡터로 변환하는 모델을 선택합니다.

    • 인덱싱 알고리즘: 검색을 위해 벡터가 어떻게 조직될지를 선택합니다.

    • 검색 메트릭: 벡터 간 유사성이 어떻게 계산되는지를 정의합니다.

    • 벡터 차원: 벡터 임베딩의 크기(일반적으로 768-1536).

  4. 양식 제출:

    • "생성" 버튼을 클릭합니다. 성공 알림을 받게 되며, 새 스토어가 벡터 스토어 목록에 나타납니다.

구성 옵션

임베딩 모델

모델
차원
설명
최적 사용

openai/text-embedding-3-large

1536

OpenAI의 고정밀 임베딩 모델

최대 정확도가 필요한 프로덕션 애플리케이션

openai/text-embedding-3-small

1536

OpenAI의 더 작고 빠른 임베딩 모델

더 높은 처리량 요구 사항이 있는 애플리케이션

인덱싱 알고리즘

알고리즘
설명
트레이드오프

IVFFLAT (기본값)

평면 압축이 적용된 역 파일

속도와 정확도의 좋은 균형; 대부분의 데이터셋에 잘 작동

HNSW

계층적 탐색 가능한 소규모 세계

대규모 데이터셋에 대한 더 나은 정확도; 더 높은 메모리 요구 사항

검색 메트릭

메트릭
설명
최적 사용

코사인 (기본값)

벡터 간의 각도를 측정

일반적인 유사성 매칭

내적 (ip)

벡터 간의 점곱

벡터 크기가 중요한 경우

L2 (유클리드)

벡터 간의 직선 거리

공간적 관계가 중요한 경우

벡터 저장소 관리

  1. 벡터 저장소 보기 및 편집:

    • 관리 대시보드에 접근하여 벡터 저장소를 보고, 편집하거나 삭제합니다.

  2. 문서 보기:

    • 특정 벡터 저장소 내에서 개별 문서와 그에 연결된 메타데이터를 탐색합니다.

  3. 통계:

    • 저장된 벡터 수, 쿼리 성능 및 운영 메트릭과 같은 자세한 통계를 봅니다.

API 키 관리

API 키는 Rememberizer 벡터 스토어의 API 엔드포인트에 대한 접근을 인증하고 권한을 부여하는 데 사용됩니다. API 키의 적절한 관리는 벡터 스토어의 보안과 무결성을 유지하는 데 필수적입니다.

API 키 생성

  1. Vector Store 세부정보 페이지로 이동합니다.

  2. API 키 관리 섹션으로 이동합니다:

    • "구성" 탭 내에서 찾을 수 있습니다.

  3. **"API 키 추가"**를 클릭합니다:

    • 세부정보를 입력하라는 메시지가 표시되는 양식이 나타납니다.

  4. 세부정보 입력:

    • 이름: API 키의 사용 사례를 식별할 수 있도록 이름을 제공합니다.

  5. 양식 제출:

    • "생성" 버튼을 클릭합니다. 새로운 API 키가 생성되어 표시됩니다. 반드시 복사하여 안전하게 저장하십시오. 이 키는 특정 벡터 저장소에 대한 요청을 인증하는 데 사용됩니다.

API 키 취소

더 이상 API 키가 필요하지 않은 경우, 잠재적인 오용을 방지하기 위해 삭제할 수 있습니다.

보안상의 이유로, 주기적으로 API 키를 교체하는 것이 좋습니다. 이는 새 키를 생성하고 이전 키를 취소하는 과정을 포함합니다.

벡터 스토어 API 사용하기

벡터 스토어를 생성하고 API 키를 생성한 후, REST API를 사용하여 상호작용할 수 있습니다.

코드 예제

벡터 저장소에 문서 업로드

def upload_document(file_path, document_name=None): if document_name is None: document_name = file_path.split("/")[-1]

벡터 스토어에 텍스트 콘텐츠 업로드

def upload_text(content, document_name): headers = { "x-api-key": API_KEY, "Content-Type": "application/json" }

벡터 저장소 검색

def search_vector_store(query, num_results=5, prev_chunks=1, next_chunks=1): headers = {"x-api-key": API_KEY}

예제 사용법

문서 업로드("path/to/document.pdf")

upload_text("이것은 벡터화할 샘플 텍스트입니다", "sample-document.txt")

search_vector_store("벡터 유사성은 어떻게 작동합니까?")

{% endtab %}

{% tab title="Ruby" %}

예제 사용법

=begin client = VectorStoreClient.new('your_api_key', 'vs_abc123')

문서 검색

results = client.search('데이터 보안에 대한 모범 사례는 무엇인가요?') puts "발견된 결과 #{results['matched_chunks'].length}개"

상위 결과 표시

if results['matched_chunks'].any? top_match = results['matched_chunks'].first puts "상위 일치 (거리: #{top_match['distance']}):" puts "문서: #{top_match['document']['name']}" puts "내용: #{top_match['matched_content']}" end =end

성능 고려사항

곧 출시: 벡터 스토어 아키텍처 다이어그램

이 기술 아키텍처 다이어그램은 다음을 설명합니다:

  • PostgreSQL + pgvector 기반 아키텍처

  • 인덱싱 알고리즘 구조 (IVFFLAT vs. HNSW)

  • 벡터 공간에서 검색 메트릭이 작동하는 방식 (시각적 비교)

  • 중복 시각화가 포함된 문서 청크 처리 과정

  • 다양한 규모에서 시각화된 성능 고려사항

다양한 데이터 볼륨 최적화

데이터 볼륨
추천 구성
비고

소형 (<10k 문서)

IVFFLAT, 코사인 유사도

간단한 구성으로 좋은 성능 제공

중형 (10k-100k 문서)

IVFFLAT, 정기적인 재색인 보장

검색 속도와 인덱스 유지 관리 간의 균형

대형 (>100k 문서)

HNSW, 벡터 차원 증가 고려

더 높은 메모리 사용량이지만 대규모에서 성능 유지

청크 전략

청크 프로세스는 검색 품질에 상당한 영향을 미칩니다:

  • 청크 크기: Rememberizer는 기본 청크 크기로 1024 바이트와 200 바이트의 중첩을 사용합니다.

  • 더 작은 청크 (512-1024 바이트): 더 정확한 일치, 특정 질문에 더 적합합니다.

  • 더 큰 청크 (1500-2048 바이트): 각 일치에서 더 많은 컨텍스트, 더 넓은 주제에 더 적합합니다.

  • 중첩: 청크 경계에서 컨텍스트가 손실되지 않도록 보장합니다.

쿼리 최적화

  • 컨텍스트 윈도우: prev_chunksnext_chunks를 사용하여 주변 콘텐츠를 검색합니다.

  • 결과 수: 3-5개의 결과(n 매개변수)로 시작하고 정확도 요구에 따라 조정합니다.

  • 임계값: 유사성 점수로 결과를 필터링하기 위해 t 매개변수를 조정합니다.

고급 사용법

재색인

Rememberizer는 벡터 수가 미리 정의된 임계값을 초과할 때 자동으로 재색인을 트리거하지만, 다음과 같은 경우 수동 재색인을 고려하십시오:

  • 많은 수의 문서를 업로드할 때

  • 임베딩 모델을 변경할 때

  • 색인 알고리즘을 수정할 때

쿼리 향상

더 나은 검색 결과를 위해:

  1. 구체적으로 검색 쿼리를 작성하세요

  2. 가능할 경우 맥락을 포함하세요

  3. 키워드보다는 자연어를 사용하세요

  4. 결과 품질에 따라 매개변수를 조정하세요

다른 벡터 데이터베이스에서 마이그레이션하기

현재 다른 벡터 데이터베이스 솔루션을 사용하고 있고 Rememberizer Vector Store로 마이그레이션하고자 한다면, 다음 가이드가 데이터를 효율적으로 전환하는 데 도움이 될 것입니다.

마이그레이션 개요

벡터 데이터를 마이그레이션하는 과정은 다음과 같습니다:

  1. 소스 벡터 데이터베이스에서 데이터 내보내기

  2. 데이터를 Rememberizer와 호환되는 형식으로 변환

  3. 데이터를 Rememberizer 벡터 저장소로 가져오기

  4. 마이그레이션이 성공적으로 완료되었는지 확인

Rememberizer로의 마이그레이션 이점

  • PostgreSQL 기반: 내장된 백업 및 복구 기능을 갖춘 성숙한 데이터베이스 기술로 구축

  • 통합 생태계: 다른 Rememberizer 구성 요소와의 원활한 연결

  • 간소화된 관리: 벡터 작업을 위한 통합 인터페이스

  • 고급 보안: 행 수준 보안 및 세분화된 접근 제어

  • 확장 가능한 아키텍처: 데이터가 증가함에 따라 성능 최적화

Pinecone에서 마이그레이션

Qdrant에서 마이그레이션하기

Supabase pgvector에서 마이그레이션하기

이미 Supabase와 pgvector를 사용하고 있다면, Rememberizer로의 마이그레이션은 두 가지 모두 pgvector 확장을 사용하는 PostgreSQL을 기반으로 하기 때문에 특히 간단합니다.

마이그레이션 모범 사례

성공적인 마이그레이션을 위해 다음 권장 사항을 따르십시오:

  1. 미리 계획하기:

    • 마이그레이션에 필요한 데이터 양과 시간을 추정합니다.

    • 트래픽이 적은 시간에 마이그레이션을 예약합니다.

    • 대규모 마이그레이션을 시작하기 전에 디스크 공간을 늘립니다.

  2. 먼저 테스트하기:

    • Rememberizer에서 테스트 벡터 저장소를 생성합니다.

    • 데이터의 작은 하위 집합(100-1000 벡터)을 마이그레이션합니다.

    • 주요 쿼리를 사용하여 검색 기능을 확인합니다.

  3. 데이터 검증:

    • 마이그레이션 전후의 문서 수를 비교합니다.

    • 유사한 결과를 보장하기 위해 벤치마크 쿼리를 실행합니다.

    • 메타데이터가 올바르게 보존되었는지 검증합니다.

  4. 성능 최적화:

    • 효율성을 위해 배치 작업을 사용합니다.

    • 소스 및 대상 데이터베이스의 지리적 공동 위치를 고려합니다.

    • API 속도 제한을 모니터링하고 배치 크기를 조정합니다.

  5. 마이그레이션 후 단계:

    • Rememberizer에서 인덱스 생성 여부를 확인합니다.

    • 애플리케이션 구성을 업데이트하여 새로운 벡터 저장소를 가리키도록 합니다.

    • 마이그레이션이 확인될 때까지 소스 데이터베이스를 백업으로 유지합니다.

자세한 API 참조 및 엔드포인트 문서는 벡터 저장소 API 페이지를 방문하십시오.


API 키를 안전하게 처리하고 API 키 관리에 대한 모범 사례를 따르십시오.

Last updated