RAG 병목 현상 해결: Ray Data와 Docling을 활용한 확장 가능한 문서 처리

핵심 요약

엔터프라이즈 환경에서 RAG 시스템 구축 시 수만 개의 복잡한 문서를 처리하는 과정에서 심각한 데이터 병목 현상이 발생한다. 이 글은 Ray Data의 고속 스트리밍 엔진과 Docling의 정밀한 레이아웃 파싱 기술을 결합한 통합 인프라 솔루션을 제안한다. 이를 통해 CPU 집약적인 파싱과 GPU 집약적인 임베딩 작업을 단일 파이프라인에서 효율적으로 처리하여 데이터 준비 시간을 며칠에서 몇 시간 단위로 단축할 수 있다. 결과적으로 RedHat OpenShift AI나 Anyscale과 같은 플랫폼 위에서 신뢰할 수 있는 에이전트형 AI 솔루션의 토대를 마련할 수 있다.

배경

RAG(Retrieval-Augmented Generation) 개념, Ray 프레임워크 기초, Kubernetes 운영 지식, Python

대상 독자

대규모 문서를 RAG 시스템으로 구축하려는 엔터프라이즈 데이터 엔지니어 및 AI 아키텍트

의미 / 영향

데이터 처리 병목을 해결함으로써 기업들이 PoC 수준을 넘어 실제 프로덕션 환경에서 수만 개의 문서를 실시간에 가깝게 활용할 수 있게 하며, 이는 향후 자율 에이전트 시스템으로의 전환을 가속화할 것이다.

섹션별 상세

RAG 시스템의 실질적인 장벽은 모델 튜닝보다 복잡한 레거시 문서(PDF 등)를 검색 가능한 형태로 변환하는 데이터 준비 과정에서의 비효율성이다. 기존 프레임워크는 CPU 기반의 파싱과 GPU 기반의 임베딩 연산 요구사항을 조율하는 데 한계가 있어 대규모 데이터 처리 시 병목이 발생한다.

Ray Data는 AI/ML 워크로드에 최적화된 분산 처리 라이브러리로, 스트리밍 실행 엔진을 통해 CPU와 GPU 작업을 파이프라인화하여 자원 활용도를 극대화한다. Python 네이티브 환경을 제공하여 직렬화 오버헤드를 줄이고, 데이터셋을 블록 단위로 분할하여 클러스터 전체에서 대규모 병렬 처리를 수행한다.

Docling은 기존 도구가 놓치기 쉬운 PDF 내 표(Table)와 레이아웃을 정확하게 파싱하여 문서의 의미론적 구조를 보존한다. Ray Data와 통합될 때 각 노드에서 Docling 인스턴스가 메모리 내 전문가 AI 모델을 실행하며, Ray Driver의 병목 없이 워커 노드들이 직접 스토리지와 통신하며 병렬로 데이터를 처리한다.

KubeRay를 통한 Kubernetes 환경에서의 운영은 자동 확장(Autoscaling)과 결함 허용(Fault Tolerance)을 보장하여 10개에서 100개 이상의 노드로 투명하게 확장 가능하다. 이는 데이터 거주성(Data Residency) 요건을 충족하면서도 데이터 준비와 모델 서빙을 동일한 플랫폼에서 실행할 수 있게 하여 운영 오버헤드를 크게 줄여준다.

미래의 엔터프라이즈 AI는 단순 검색을 넘어 다단계 워크플로를 수행하는 에이전트형 솔루션으로 진화하고 있으며, 이를 위해 RAG와 RAFT(Retrieval-Augmented Fine-Tuning)의 결합이 필수적이다. 고품질로 처리된 데이터는 에이전트가 사용자를 대신해 작업을 정확히 수행하는 데 핵심적인 역할을 하며, 견고한 인프라가 이러한 고급 추론 체인의 기반이 된다.

이미지 분석

Diagram
문서 파싱, 청킹, 임베딩을 거쳐 벡터 DB에 저장되는 데이터 처리 흐름과 사용자 쿼리에 따른 검색 및 LLM 생성 과정을 시각화한다. RAG 시스템의 전체적인 구성 요소와 데이터의 이동 경로를 이해하는 데 필수적인 정보를 제공한다.
RAG 데이터 처리, 검색 및 생성 워크플로 다이어그램

Diagram
Ray Driver가 실행 계획을 관리하고 여러 Ray Worker가 Docling을 사용하여 병렬로 문서를 처리한 뒤 JSON 결과를 출력 저장소에 직접 쓰는 구조를 보여준다. 드라이버의 병목 없이 대규모 병렬 처리가 가능함을 기술적으로 입증한다.
Docling을 활용한 Ray 분산 문서 처리 아키텍처

Diagram
오브젝트 스토리지의 문서를 CPU 노드에서 Docling으로 파싱하고 GPU 노드에서 임베딩을 생성하여 Milvus 벡터 DB에 저장하는 엔드투엔드 파이프라인을 설명한다. 이기종 컴퓨팅 자원을 활용한 실제 배포 구조를 명확히 제시한다.
Kubernetes 기반 KubeRay 문서 처리 데이터 파이프라인

실무 Takeaway

Ray Data의 스트리밍 엔진을 활용하여 CPU(파싱)와 GPU(임베딩) 자원을 동시에 사용하는 이기종 컴퓨팅 파이프라인을 구축하여 처리 속도를 극대화한다.
단순 텍스트 추출 대신 Docling과 같은 레이아웃 인식 파서를 사용하여 표와 구조 정보를 보존함으로써 RAG 검색의 정확도를 높인다.
KubeRay를 도입하여 대규모 데이터 인입 시 클러스터를 동적으로 확장하고 노드 장애 시 자동 복구되는 안정적인 엔터프라이즈 인프라를 확보한다.