이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
단순 텍스트 추출을 넘어 레이아웃과 시각 정보를 구조화된 데이터로 변환하는 PaLADIN을 통해 LLM의 답변 품질을 획기적으로 개선했다.
배경
LLM 서비스에서 PDF 문서를 정확하게 읽어내는 것은 RAG 성능과 직결되는 핵심 과제이다.
대상 독자
LLM 서비스를 개발하거나 문서 처리 파이프라인 최적화에 관심 있는 엔지니어
의미 / 영향
PaLADIN은 금융, 법률 등 정밀한 수치 해석이 필요한 도메인에서 LLM 서비스의 신뢰도를 획기적으로 높일 수 있다. 오픈소스 모델과 자체 OCR의 조합으로 상용 API 의존도를 낮추면서도 높은 성능을 확보하는 실전적인 아키텍처를 제시한다.
챕터별 상세
00:00
PDF 파싱의 중요성과 LLM-Readable 포맷
LLM의 확산과 함께 문서가 LLM이 읽기 적합한 형태인지를 판단하는 LLM-readable 기준이 중요해졌다. PDF는 문서 포맷의 표준이지만 레이아웃이 복잡하여 단순 추출 시 정보 왜곡이 발생한다. 고품질 문서 확보가 LLM 경쟁력의 핵심이 되면서 텍스트뿐 아니라 표와 차트의 구조를 보존하는 파싱 기술이 필수적이다.
- •LLM-readable 포맷 확보가 RAG 시스템의 답변 품질을 결정함
- •PDF는 표준 포맷이지만 구조적 파싱이 매우 까다로운 매체임
02:25
기존 기술 탐색 및 NVIDIA 협업 PoC
PyMuPDF4LLM, Docling, NV-Ingest 등 주요 오픈소스 PDF 파싱 도구들을 검토했다. NVIDIA의 NV-Ingest는 MSA 아키텍처를 채택하여 모듈별 커스터마이징이 용이하다는 장점이 있다. NVIDIA와의 해커톤을 통해 AIQ-research-assistant 프로젝트를 수행하며 NV-Ingest 기반의 딥러닝 리서치 파이프라인 가능성을 확인했다.
- •NV-Ingest는 MSA 기반으로 모듈 교체와 확장이 용이함
- •NVIDIA 해커톤을 통해 한국어 및 복잡한 레이아웃 처리의 한계를 파악함
05:41
PaLADIN 아키텍처: 모듈형 설계와 핵심 모델
PaLADIN은 NV-Ingest를 기반으로 네이버의 요구사항에 맞춰 고도화된 아키텍처를 갖췄다. Element Detector로 Doclayout-YOLO를 사용하여 문서 내 요소들의 바운딩 박스를 식별한다. 표 추출에는 nemoretriever-table-structure-v1을, 차트 해석에는 Gemma 3-27b-it VLM을 적용하여 시각 정보를 텍스트로 변환한다. 한국어 텍스트 추출의 정확도를 높이기 위해 Papago OCR을 통합했다.
- •Doclayout-YOLO와 VLM을 조합하여 시각적 요소의 맥락을 파악함
- •자체 OCR 기술을 통합하여 한국어 인식 성능을 극대화함
11:58
성능 최적화: 추론 속도와 비용의 균형
의존성 없는 태스크를 병렬 처리하고 페이지 단위 병렬화를 도입하여 속도를 개선했다. PyTorch 모델을 TensorRT로 변환하고 Triton Inference Server를 통해 배포함으로써 추론 속도를 약 1.4배에서 2배까지 향상시켰다. 고가의 A100 GPU 대신 T4 GPU를 활용하도록 최적화하여 성능 손실 없이 운영 비용을 절감했다.
- •TensorRT 변환과 Triton 서버 도입으로 추론 지연 시간을 대폭 단축함
- •T4 GPU 스팟 인스턴스 활용으로 인프라 비용 효율성을 확보함
15:04
벤치마크 결과: 표와 차트 인식 성능 비교
표와 차트에 특화된 100건의 객관식 문제로 구성된 자체 평가셋을 구축하여 성능을 측정했다. PaLADIN은 차트 인식 부문에서 68점을 기록하며 Docling(64점)이나 상용 서비스인 Upstage(51점)보다 우수한 성능을 보였다. 전체 점수에서 Gemini(77.5점)에 이어 74점으로 2위를 차지하며 오픈소스 기반 솔루션 중 최상위권 성능을 입증했다.
- •차트 해석 능력에서 기존 오픈소스 및 상용 API 대비 우위를 점함
- •페이지당 약 9.13초의 처리 속도로 성능과 효율의 균형을 맞춤
22:25
실무 적용: 증권사 리포트 요약 서비스 사례
AIB 증권사 리포트 서비스에 PaLADIN을 적용하여 복잡한 금융 데이터를 요약했다. 'LLM as a judge' 방식을 통해 요약 모델을 선정했으며, 할루시네이션이 가장 적은 Llama 4 Maverick 모델을 최종 채택했다. 6~7페이지 분량의 리포트 특성을 고려하여 RAG 대신 롱 컨텍스트 LLM에 전체 파싱 텍스트를 입력하는 방식을 선택해 정보 손실을 방지했다.
- •증권 리포트의 수치 데이터를 할루시네이션 없이 요약하는 데 성공함
- •문서 길이에 따라 RAG 대신 롱 컨텍스트 직접 입력을 활용함
25:54
한계점과 향후 개선 방향
표 내부에 테두리가 없거나 셀이 비어 있는 경우 좌표 매핑 오류가 발생하는 이슈가 확인됐다. VLM의 그리드 패치 방식 한계로 인해 차트 내 미세한 수치를 읽을 때 여전히 할루시네이션이 발생한다. 향후 셀 좌표 매핑 로직을 정교화하고 차트 전용 모델(Matcha, DePlot 등)의 도입을 검토하여 정확도를 더욱 높일 계획이다.
- •복잡한 표 구조에서의 셀 매핑 정확도 개선이 필요함
- •VLM의 시각적 해상도 한계로 인한 차트 수치 오독 문제를 해결 중임
실무 Takeaway
- PDF 파싱 시 단순 텍스트 추출보다 레이아웃 보존과 표/차트의 구조적 이해가 LLM 답변 정확도에 결정적이다.
- NV-Ingest의 MSA 구조를 활용하면 특정 도메인에 맞는 모델(OCR, VLM 등)로 유연하게 교체하여 성능을 극대화할 수 있다.
- 짧은 문서(6-7페이지)의 경우 RAG보다 롱 컨텍스트 LLM을 직접 사용하는 것이 청킹으로 인한 정보 손실을 방지하는 데 유리하다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2025. 12. 04.수집 2026. 02. 21.출처 타입 YOUTUBE
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.