Databricks의 수십억 개 벡터 검색을 위한 스토리지 최적화 아키텍처 구축기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 벡터 데이터베이스는 메모리 점유 방식의 한계로 인해 수십억 개 규모의 데이터를 처리할 때 비용과 확장성 문제에 직면한다. Databricks는 이를 해결하기 위해 스토리지와 컴퓨팅을 완전히 분리하고, 인덱싱을 서버리스 Spark에서 수행하며, Rust 기반의 전용 쿼리 엔진을 구축한 'Storage Optimized Vector Search'를 개발했다. 이 시스템은 IVF 인덱스 구조와 Product Quantization 기법을 통해 데이터를 64배 압축하고 클라우드 오브젝트 스토리지에 저장함으로써 비용을 7배 절감한다. 결과적으로 10억 개 이상의 벡터에 대해 8시간 이내에 인덱스를 생성하고 수백 밀리초 수준의 지연 시간으로 검색 서비스를 제공할 수 있게 되었다.

배경

Vector Search 및 Embedding 개념, 분산 컴퓨팅(Spark) 기초 지식, 오브젝트 스토리지(S3 등) 작동 원리

대상 독자

대규모 벡터 데이터를 다루는 AI 인프라 엔지니어 및 RAG 시스템 아키텍트

의미 / 영향

이 아키텍처는 벡터 검색의 경제적 장벽을 낮추어 기업들이 수십억 건의 문서를 포함하는 초거대 RAG 시스템을 합리적인 비용으로 운영할 수 있게 합니다. 특히 스토리지와 컴퓨팅의 분리는 데이터 증가에 따른 비용 선형성을 확보해 줍니다.

섹션별 상세

기존 HNSW 기반 아키텍처는 벡터와 인덱스를 모두 메모리에 유지해야 하므로 데이터 증가에 따라 RAM 비용이 기하급수적으로 상승하며, 인덱스 생성과 쿼리 처리가 동일 노드에서 경합하는 구조적 한계를 가진다.

Storage Optimized 아키텍처는 모든 데이터를 오브젝트 스토리지에 저장하고 쿼리 노드를 상태 비저장 방식으로 설계하여 스토리지와 컴퓨팅, 인덱싱과 서빙을 각각 독립적으로 확장 가능하게 분리했다.

오브젝트 스토리지 환경에 적합하도록 인덱스 구조를 HNSW 대신 파티셔닝이 용이한 IVF(Inverted File Index)로 전환하여, 쿼리 시 전체 인덱스가 아닌 관련 슬라이스만 메모리에 로드할 수 있도록 구현했다.

수십억 개의 고차원 벡터를 처리하기 위해 FAISS 같은 단일 머신 라이브러리 대신 Spark 기반의 분산 K-means와 Product Quantization 알고리즘을 직접 구현하여 인덱싱 속도를 20배 향상시켰다.

K-means 클러스터링 과정에서 Spark는 분산 데이터 이동을 담당하고 JAX는 각 실행기 내부에서 하드웨어 가속 선형 대수 연산을 수행하여 10억 행 데이터에 대한 파티셔닝을 효율적으로 처리한다.

Product Quantization(PQ) 기법을 적용하여 768차원 벡터를 64배 압축함으로써 10억 개의 벡터 인덱스 크기를 약 45GiB 수준으로 줄여 메모리 효율성을 극대화했다.

Rust로 작성된 쿼리 엔진은 비동기 I/O(Tokio)와 CPU 연산용 스레드 풀을 분리한 듀얼 런타임 아키텍처를 채택하여, 오브젝트 스토리지의 네트워크 지연 시간이 벡터 거리 계산 성능을 저해하지 않도록 설계했다.

오브젝트 스토리지 읽기 최적화를 위해 여러 개의 작은 범위 읽기 요청을 256KiB 단위로 병합하여 요청 오버헤드를 줄이고 p50 지연 시간을 최적화했다.

검색 결과의 정확도를 높이기 위해 압축된 인덱스로 후보군을 먼저 추출한 뒤, 오브젝트 스토리지에서 원본 벡터를 가져와 다시 계산하는 Re-ranking 단계를 거쳐 90% 이상의 Recall을 유지한다.

실무 Takeaway

수십억 규모의 벡터 검색 시스템 설계 시, 메모리 비용을 줄이기 위해 IVF와 PQ를 조합하여 인덱스를 압축하고 오브젝트 스토리지에 배치하는 전략이 유효하다.
인덱싱과 쿼리 서빙의 리소스를 분리하기 위해 서버리스 Spark를 활용한 분산 인덱싱 파이프라인을 구축하면 대규모 데이터 업데이트 시에도 쿼리 성능 저하를 방지할 수 있다.
오브젝트 스토리지 기반 검색 엔진에서는 I/O와 CPU 연산 스레드를 분리하고 읽기 요청을 병합하는 기법을 통해 네트워크 지연 시간의 영향을 최소화해야 한다.