MinerU2.5-Pro: 데이터 중심 설계를 통한 대규모 문서 파싱의 한계 돌파

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

모델 구조를 전혀 바꾸지 않고 오직 학습 데이터의 품질과 학습 전략만 개선하여 세계 최고의 문서 파싱 성능을 달성했다. 이는 복잡한 표나 수식이 포함된 PDF를 텍스트로 변환할 때 발생하는 고질적인 오류를 데이터 엔지니어링만으로 해결할 수 있음을 증명한 사례이다.

왜 중요한가

핵심 기여

체계적인 데이터 엔진 설계

데이터의 커버리지, 정보성, 주석 정확도를 동시에 최적화하는 데이터 엔진을 구축했다. 이를 통해 학습 데이터를 기존 10M 미만에서 65.5M 샘플로 대폭 확장하면서도 데이터 분포의 불균형을 해소했다.

교차 모델 일관성 검증 기법 도입

서로 다른 구조를 가진 여러 모델의 출력 결과가 일치하는지 확인하여 데이터의 난이도를 자동으로 분류한다. 모델 간 의견이 일치하지 않는 '어려운 샘플'을 식별하여 집중적으로 개선하는 전략을 사용했다.

3단계 점진적 학습 전략 수립

대규모 사전 학습, 어려운 샘플 대상의 미세 조정, 그리고 GRPO 기반의 강화학습 정렬로 이어지는 체계적인 학습 파이프라인을 구축했다. 각 단계는 데이터 엔진에서 생성된 서로 다른 품질 등급의 데이터를 순차적으로 활용한다.

OmniDocBench v1.6 벤치마크 제안

기존 평가 방식의 요소 매칭 편향을 수정하고 고난도 데이터셋을 추가한 새로운 평가 프로토콜을 수립했다. 이를 통해 모델의 실제 문서 파싱 능력을 더욱 정밀하게 측정할 수 있는 환경을 마련했다.

핵심 아이디어 이해하기

기존의 문서 파싱 연구는 주로 모델의 크기를 키우거나 아키텍처를 복잡하게 만드는 데 집중했다. 하지만 서로 다른 구조의 모델들이 동일한 고난도 샘플에서 공통적으로 실패하는 현상이 발견됐으며, 이는 성능의 병목이 모델 구조가 아닌 학습 데이터의 결핍에 있음을 시사한다. 특히 복잡한 표나 밀집된 수식 같은 롱테일 데이터의 부족과 자동 생성된 주석의 노이즈가 모델의 학습을 방해하는 핵심 요인으로 지목됐다.

이 문제를 해결하기 위해 MinerU2.5-Pro는 모델 아키텍처를 1.2B 파라미터로 완전히 고정한 채 데이터의 질적 개선에만 집중한다. 먼저 여러 모델을 동시에 실행해 결과가 갈리는 지점을 찾아내어 데이터의 난이도를 측정한다. 모델들이 모두 틀리는 데이터는 '어려운 샘플'로 분류하고, 이를 다시 렌더링하여 원본 이미지와 비교하는 'Judge-and-Refine' 루프를 통해 주석의 정확도를 비약적으로 높인다.

결과적으로 기초적인 Embedding과 Attention 메커니즘을 가진 모델이 더 정확하고 깨끗한 데이터를 학습함으로써, 수백 배 더 큰 파라미터를 가진 거대 모델들보다 더 정교하게 문서를 이해하게 된다. 이는 데이터의 양보다 질, 그리고 그 질을 관리하는 체계적인 엔지니어링 시스템이 딥러닝 모델의 성능 한계를 결정짓는 핵심 요소임을 보여준다.

방법론

데이터 엔진은 네 가지 핵심 컴포넌트로 구성된다. 첫째, DDAS(Diversity-and-Difficulty-Aware Sampling)는 페이지 및 요소 수준에서 클러스터링을 수행하여 데이터 분포를 조정한다. 둘째, CMCV(Cross-Model Consistency Verification)는 MinerU2.5, PaddleOCR-VL, Qwen3-VL 등 이종 모델의 출력 일치도를 기반으로 데이터를 Easy, Medium, Hard 등급으로 분류한다.

셋째, Hard 등급 데이터는 Judge-and-Refine 파이프라인을 거친다. Qwen3-VL-235B를 판별기로 사용하여 모델이 생성한 LaTeX 수식이나 HTML 표를 다시 이미지로 렌더링한 뒤 원본과 비교한다. [원본 이미지와 렌더링 이미지 입력 → 시각적 차이점 분석 연산 → 수정된 구조화 텍스트 출력] 과정을 통해 자동 주석의 노이즈를 제거한다. 넷째, 자동 수정이 불가능한 극소수의 데이터는 전문가의 수동 주석 과정을 거쳐 최종 품질을 보장한다.

학습은 3단계로 진행된다. 1단계는 CMCV로 자동 생성된 65.5M 샘플을 활용한 대규모 사전 학습이다. 2단계는 전문가가 검증한 192K의 고품질 Hard 샘플로 미세 조정을 수행하여 취약 구간을 보강한다. 3단계는 GRPO(Group Relative Policy Optimization)를 사용한 강화학습 단계다. [입력 문서에 대해 G개의 후보 출력 생성 → 각 출력의 편집 거리 및 구조 유사도 계산 → 그룹 내 상대적 우위 기반 가중치 업데이트] 과정을 통해 모델의 출력을 최종 평가 지표에 직접 최적화한다.

주요 결과

OmniDocBench v1.6 전체 테스트에서 95.69점을 기록하며 기존 MinerU2.5(92.98점) 대비 2.71점의 성능 향상을 달성했다. 이는 200배 이상 많은 파라미터를 가진 대형 모델들을 포함하여 현재 존재하는 모든 문서 파싱 모델을 능가하는 수치다. 특히 고난도 데이터셋인 Hard subset에서는 94.08점을 기록하여 2위 그룹(92점대)과의 격차를 더욱 벌렸다.

세부 항목별로는 수식 인식(CDM 97.29), 표 인식(TEDS 93.42), 읽기 순서(0.120) 등 모든 지표에서 최고 수준의 성능을 보였다. 특히 표 인식 분야에서는 복잡한 병합 셀이나 회전된 표 구조를 정확하게 복원하는 능력이 탁월함을 입증했다. Ablation study 결과, 대규모 SFT가 전체 성능 향상의 가장 큰 동력(+1.31)이었으며, GRPO 강화학습은 특히 수식 인식의 정밀도를 높이는 데 기여했다.

기술 상세

MinerU2.5-Pro는 NaViT-675M 비전 인코더와 Qwen2-0.5B 언어 모델을 결합한 디커플링(Decoupled) 아키텍처를 유지한다. 이 구조는 레이아웃 분석과 내용 인식을 분리하여 고해상도 이미지 처리에 따른 연산 복잡도를 효율적으로 관리한다. 모델 구조의 변경 없이 오직 데이터 전략만으로 성능을 개선한 것이 기술적 차별점이다.

핵심 알고리즘인 MGAM(Multi-Granularity Adaptive Matching)은 평가 시 발생하는 세그멘테이션 편향을 해결한다. 모델이 한 줄의 수식을 여러 줄로 나누어 인식하더라도 의미적으로 동일하면 정답으로 인정하도록 [예측값 분할 → 모든 가능한 조합의 파티션 생성 → 헝가리안 알고리즘 기반 최적 매칭 계산] 과정을 수행한다. 학습 시에는 GRPO를 통해 편집 거리(Edit Distance), TEDS, CDM 등 실제 평가 지표를 보상 함수로 직접 사용하여 모델의 출력을 최적화했다.

한계점

동일한 내용을 표현하는 다양한 포맷(HTML vs Markdown)이나 논리적으로 동일한 레이아웃에 대한 주석의 모호성 등 평가 지표 자체의 근본적인 한계가 여전히 존재한다. 또한 금융, 법률, 의료 등 특정 전문 도메인에 대한 정밀한 대응을 위해서는 추가적인 도메인 특화 데이터 확장이 필요하다.

실무 활용

1.2B 규모의 경량 모델임에도 불구하고 상용 수준의 문서 파싱 능력을 갖추고 있어 실제 서비스 도입에 매우 유리하다. 특히 복잡한 학술 논문, 금융 보고서, 기술 매뉴얼 등을 정형 데이터로 변환하는 파이프라인에 즉시 적용 가능하다.

RAG(검색 증강 생성) 시스템을 위한 대규모 PDF 문서의 고품질 Markdown 변환
복잡한 표와 수식이 포함된 학술 논문 및 기술 문서의 데이터베이스화
금융 보고서 내의 복잡한 표 구조를 엑셀이나 HTML로 자동 추출
다단 레이아웃이나 비정형 구조를 가진 고문서 및 보고서의 디지털화

코드 공개 여부: 공개

코드 저장소 보기

키워드

Document Parsing(문서 파싱)Data-Centric AI(데이터 중심 AI)GRPO(그룹 상대 정책 최적화)OmniDocBench(옴니독벤치)VLM(시각 언어 모델)