DocAtlas: 80개 언어 이상을 아우르는 다국어 문서 이해

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

다국어 문서 이해가 자원 부족 스크립트에서 크게 저하되는 문제를 해결하기 위해, 모델 의존 없이 Ground Truth를 추출하는 렌더링 기반 주석과 RTL 합성을 제안한다. 이를 통해 82개 언어에 걸친 9개 평가 태스크를 포함하는 대규모 벤치마크를 구축하고, DPO를 통한 교차-언어 전이 성능을 개선한다.

왜 중요한가

다국어 문서 이해가 자원 부족 스크립트에서 크게 저하되는 문제를 해결하기 위해, 모델 의존 없이 Ground Truth를 추출하는 렌더링 기반 주석과 RTL 합성을 제안한다. 이를 통해 82개 언어에 걸친 9개 평가 태스크를 포함하는 대규모 벤치마크를 구축하고, DPO를 통한 교차-언어 전이 성능을 개선한다.

핵심 기여

모델-의존 없는 다국어 OCR 데이터셋·벤치마크 구축

Native DOCX와 RTL 합성 파이프라인을 결합해 82개 언어의 5,862페이지를 포함하는 360K 페이지 규모의 학습용 코퍼스와 5.8K 페이지의 평가 벤치마크를 구성한다. DocTag 포맷으로 레이아웃/텍스트/컴포넌트를 일관되게 표현한다.

렌더링 기반 주석의 모델-프리 특성

Differential rendering과 OpenXML 파싱으로 바운딩 박스와 컴포넌트를 모델 학습 없이 추출하고, RTL 파이프라인으로 RTL 스크립트의 주석 커버리지를 확장한다.

직접 선호 최적화(DPO)로 다국어 전이 개선

렌더링-derived ground truth를 Positive 신호로 사용하는 DPO가 base-language 성능을 보존하면서 새로운 언어에서의 정확도를 안정적으로 증가시킨다(예: +1.7% Overall).

핵심 아이디어 이해하기

출발점은 대규모 문서 데이터의 라벨링 비용과 스크립트 편향 문제이다. 기존 렌더링 기반 접근은 투입된 모델 의존성으로 인해 한계가 존재하며, RTL과 RTL이 포함된 다양한 스크립트에 대한 커버리지도 부족했다. DocAtlas는 (1) native Word 문서의 렌더링-차이 픽셀 차이로 바운딩 박스를 얻는 differential rendering, (2) LatEx를 이용한 RTL 구조의 합성 파이프라인, (3) DocTag 포맷으로 구성 요소-지오메트리-텍스트를 통합 표현하고, (4) DPO를 이용한 cross-lingual adaptation으로 저자원 스크립트에서도 일관된 성능 향상을 달성한다. 이를 통해 82개 언어의 태스크를 포괄하는 벤치마크를 제시하고, 14개 모델 비교에서 저자원 스크립트의 성능 저하를 줄이고 표-차트 등 구조적 이해를 향상시킨다.

방법론

Pipeline A는 Native DOCX를 Word로 렌더링한 후 colorization 차이로 UI 박스 및 구성 요소를 얻고, DocTag를 통해 텍스트-지오메트리-구성 요소를 IoU 기반으로 정합한다. Pipeline B는 RTL 언어에 대해 LATEX templating을 활용해 EPUB/HTML/XML를 변형하여 정확한 바운딩 박스를 가진 PDF+DocLing를 생성한다. 두 파이프라인은 model-free 주석을 생성하며, 품질 필터링 및 난이도 기반 샘플링으로 고품질 코퍼스를 보장한다. 9개 태스크는 엔드투엔드 페이지 파싱, 텍스트 인식, 표 추출, 수식 전사, 차트 파싱, 읽기 순서, 그리고 각 형식별 하위 태스크를 포함한다.

주요 결과

DocAtlas-DeepSeek 등의 모델이 벤치마크에서 가장 높은 성능(83.37% Overall)으로, 텍스트 인식이 구조적 출력보다 큰 기여를 보인다. 고_resource 언어와 저_resource 언어 간 성능 차이는 악화되며, RTL 및 차트 인식은 여전히 도전 과제이다. DPO를 통한 Cross-lingual 전이가 기존 supervised 파인튜닝보다 더 나은 균형을 보이며, rendering-dervived GT를 Positive 신호로 사용할 때 out-of-domain 일반화도 향상된다.

기술 상세

전체 아키텍처는 두 파이프라인(A: Native Word Documents, B: Synthetic RTL)로 구성되며, DocTag로 통합된 주석 포맷을 사용한다. Pipeline A에서 OpenXML 파서를 이용해 구성요소를 식별하고 색상 코드를 주입한 뒤 colorized/uncolorized PDF를 생성하고 픽셀 차이로 바운딩 박스를 얻는다. 텍스트는 페이지 단위로 DocLing과 수동 규칙 기반 매핑으로 바인딩되며, IoU 매칭으로 텍스트와 기하를 결합한다. Pipeline B는 LATeX 템플릿과 3회 컴파일을 통해 각 요소의 좌표를 로그하고, DocLing JSON과 LATEX 결과를 연계한다. DocTag 출력은 JSON/HTML/Markdown/오버레이로 제공되며, core 주석은 모델 의존 없이 생성된다.

키워드

DocAtlasDocTagdifferential renderingmultilingual OCRRTL synthesiscross-lingual transferbenchmark