핵심 요약
기존 OCR 시스템은 레이아웃 분석과 텍스트 인식을 별도 모델로 처리하여 오류가 전파되는 한계가 있었다. 이 논문은 하나의 모델이 '생각' 과정을 거쳐 레이아웃을 먼저 파악한 뒤 텍스트를 추출하는 방식을 도입하여, 복잡한 표나 차트가 포함된 문서에서도 획기적인 정확도 향상을 이뤄냈다.
왜 중요한가
기존 OCR 시스템은 레이아웃 분석과 텍스트 인식을 별도 모델로 처리하여 오류가 전파되는 한계가 있었다. 이 논문은 하나의 모델이 '생각' 과정을 거쳐 레이아웃을 먼저 파악한 뒤 텍스트를 추출하는 방식을 도입하여, 복잡한 표나 차트가 포함된 문서에서도 획기적인 정확도 향상을 이뤄냈다.
핵심 기여
통합 엔드투엔드 아키텍처 구축
레이아웃 분석, 텍스트 인식, 의미 이해를 단일 Vision-Language Model로 통합하여 단계 간 오류 전파를 차단하고 전체 시각적 컨텍스트를 유지함.
Layout-as-Thought 메커니즘 도입
<think> 토큰을 활용해 모델이 최종 출력 전 바운딩 박스와 요소 타입을 먼저 생성하도록 유도하여 복잡한 문서 구조에서의 인식 정확도를 개선함.
대규모 전문 데이터 합성 파이프라인
문서 파싱, KIE, 복잡한 표 및 차트 이해 등 6가지 영역에 특화된 고품질 데이터 합성 경로를 개발하여 학습에 활용함.
주요 벤치마크 SOTA 달성
OmniDocBench v1.5(93.12) 및 OlmOCR Bench(79.8)에서 모든 엔드투엔드 모델 중 1위를 기록하며 성능 우위를 입증함.
핵심 아이디어 이해하기
기존 OCR은 이미지에서 글자 위치를 찾는 검출 모델과 글자를 읽는 인식 모델을 따로 사용한다. 이 방식은 검출 단계의 작은 실수가 인식 단계에서 큰 오류로 번지는 에러 전파 문제가 있고, 표나 차트 같은 시각적 맥락을 잃기 쉽다는 한계가 있다. Transformer 기반의 Self-Attention은 이미지 전체의 관계를 파악할 수 있지만, 단순히 텍스트만 출력하게 하면 복잡한 구조를 놓치는 경우가 많다.
Qianfan-OCR은 이를 해결하기 위해 Layout-as-Thought라는 개념을 도입했다. 모델이 답을 내놓기 전에 <think> 토큰을 사용해 문서의 뼈대인 바운딩 박스, 요소 타입, 읽기 순서를 머릿속으로 먼저 그려보게 하는 방식이다. 이는 마치 사람이 복잡한 문서를 읽을 때 전체 구조와 제목, 표의 위치를 먼저 훑어본 뒤 세부 내용을 읽는 것과 유사한 원리로 동작한다.
결과적으로 모델은 시각적 특징과 공간 정보를 동시에 고려하며, 복잡한 다단 구성이나 표 안의 텍스트도 문맥에 맞게 정확히 추출한다. 특히 4B 규모의 경량 모델임에도 불구하고 레이아웃 정보를 명시적으로 생성함으로써 훨씬 거대한 범용 멀티모달 모델들보다 문서 구조 보존 능력이 뛰어나다는 점이 핵심이다.
방법론
전체 구조는 Qianfan-ViT 비전 인코더, 경량 프로젝션 어댑터, Qwen3-4B 언어 모델 백본으로 구성된 멀티모달 브리징 아키텍처를 채택했다. 이미지 입력은 AnyResolution 설계를 통해 최대 4K 해상도까지 동적으로 타일링되어 세밀한 글자 인식을 지원한다.
Layout-as-Thought 메커니즘은 <think> 토큰으로 트리거되며, 모델은 <layout>...</layout> 태그 내에 좌표와 레이블을 생성한다. 모든 좌표는 [0, 999] 범위로 정규화된 1,000개의 전용 토큰(<COORD_0>~<COORD_999>)으로 변환되어 연산 효율을 높인다. [입력 이미지 → 좌표 정규화 및 토큰화 → 레이아웃 시퀀스 생성 → 공간 정보가 반영된 최종 텍스트 출력] 순으로 계산이 이루어지며, 이는 좌표를 일반 텍스트 숫자로 처리할 때보다 토큰 길이를 약 50% 단축시킨다.
학습은 4단계 프로세스를 따른다. 1단계는 50B 토큰 규모의 시각-언어 정렬, 2단계는 2T 토큰의 기초 OCR 학습, 3단계는 800B 토큰의 도메인 특화 강화(표, 수식, 차트), 4단계는 수백만 개의 명령어 튜닝 및 추론 강화 단계다. 특히 3단계에서는 OCR 전용 데이터와 일반 데이터를 1:1로 혼합하여 도메인 성능을 높이면서도 일반적인 추론 능력이 저하되는 치명적 망각을 방지했다.
주요 결과
OmniDocBench v1.5 벤치마크에서 93.12점을 기록하며 DeepSeek-OCR-v2(91.09)와 Gemini-3 Pro(90.33)를 제치고 엔드투엔드 모델 중 1위에 올랐다. 특히 텍스트 편집 거리와 표 구조 보존(Table-TEDs) 지표에서 압도적인 성능을 보였다.
OlmOCR Bench에서도 79.8점을 기록하여 기존 파이프라인 방식인 PaddleOCR-VL(80.0)에 근접하는 성능을 증명했다. 특히 복잡한 다단 문서(Multi-column)와 오래된 스캔 문서(Old scans) 카테고리에서 강점을 나타냈다.
핵심 정보 추출(KIE) 작업에서는 평균 87.9점을 획득하여 Qwen3-VL-235B(84.2)와 Gemini-3.1-Pro(79.2) 등 거대 모델들을 능가하는 효율성을 입증했다. 이는 모델 규모보다 문서 구조에 대한 특화 학습이 실무 작업에서 더 중요함을 시사한다.
실무 활용
4B 규모의 효율적인 파라미터 수로 단일 GPU에서 고성능 문서 처리가 가능하며, 마크다운 형식의 직접 출력을 지원해 RAG 시스템 구축에 최적화되어 있다.
- 복잡한 금융 보고서 및 논문의 마크다운 변환 및 구조화
- 영수증, 계약서, 자격증 등 비정형 문서의 핵심 정보 자동 추출(KIE)
- 차트 및 표 데이터를 HTML/JSON 등 편집 가능한 데이터로 변환
- 시각적 문맥이 중요한 문서 기반 질의응답(DocVQA) 시스템 구축
기술 상세
AnyResolution 비전 인코더는 이미지를 448x448 패치로 분할하며, 최대 16개의 타일을 사용하여 4,096개의 비주얼 토큰을 생성한다. 이는 고밀도 텍스트와 작은 폰트 처리를 위한 충분한 공간 해상도를 제공한다. 언어 모델 백본인 Qwen3-4B는 Grouped-Query Attention(GQA)을 사용하여 KV 캐시 메모리를 4배 절감했으며, 32K 컨텍스트 윈도우를 지원한다.
Layout-as-Thought 데이터 구축 시 PaddleOCR-VL을 주석 엔진으로 활용하여 25개 카테고리의 세밀한 레이아웃 레이블 시스템을 구축했다. 이는 추상적인 레이아웃 분류보다 하위 작업에서의 정확도를 높이는 데 기여한다. 추론 시 AWQ 양자화를 적용한 W8A8 정밀도에서 1.024 PPS(Pages Per Second)의 처리량을 달성하여 실무 배포에 적합한 속도를 확보했다.
한계점
현재 Layout-as-Thought 메커니즘은 주로 문서 파싱 작업에서 검증되었으며, 비디오 OCR이나 3D 곡면 텍스트, 고도로 스타일화된 예술적 필기체 인식에 대한 성능은 아직 충분히 탐구되지 않았다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료