MinerU-Diffusion: 디퓨전 디코딩을 통한 역렌더링 방식의 문서 OCR 재고찰

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 OCR 시스템은 글자를 하나씩 순서대로 읽는 방식이라 긴 문서에서 느리고 오류가 쌓이는 문제가 있었다. 이 논문은 이미지를 한꺼번에 처리하는 디퓨전 기술을 도입해 속도를 3.2배 높이고, 문맥이 꼬여도 정확하게 글자를 읽어내는 시각적 강인함을 증명했다.

왜 중요한가

핵심 기여

역렌더링 관점의 디퓨전 기반 OCR 프레임워크

문서 OCR을 순차적 생성이 아닌 시각적 조건 하의 병렬 역렌더링 문제로 재정의하고, 마스크드 디퓨전 모델을 활용해 전체 시퀀스를 동시에 복원하는 MinerU-Diffusion을 제안했다.

블록 단위 디퓨전 디코더 설계

전체 시퀀스에 대한 Full-Attention의 연산 비용 문제를 해결하기 위해 블록 내 병렬 디코딩과 블록 간 인과적 구조를 결합한 하이브리드 아키텍처를 도입하여 효율성을 확보했다.

불확실성 기반 커리큘럼 학습 전략

학습 안정성을 위해 쉬운 데이터에서 기초를 다진 후, 모델의 예측 불확실성이 높은 어려운 사례를 선별하여 집중 학습하는 2단계 전략을 통해 경계 정밀도를 향상시켰다.

핵심 아이디어 이해하기

기존 Transformer 기반 OCR은 텍스트를 왼쪽에서 오른쪽으로 한 토큰씩 생성하는 Autoregressive 방식을 사용한다. 이는 언어 모델의 특성을 빌려온 것이지만, 문서 OCR은 이미지라는 명확한 시각적 증거가 존재하므로 반드시 순차적일 필요가 없다. 오히려 긴 문서에서는 앞선 실수가 뒤로 전파되거나, 시각 정보보다 언어적 편향에 의존해 환각(Hallucination)을 일으키는 한계가 발생한다.

MinerU-Diffusion은 이를 해결하기 위해 '디퓨전(Diffusion)' 개념을 도입한다. 이미지 생성 모델이 노이즈에서 그림을 그려내듯, 마스크 처리된 텍스트 시퀀스 전체를 시각 정보를 바탕으로 동시에 복원한다. 이때 각 토큰은 시각적 입력에 대해 조건부 독립(Conditional Independence)을 가진다고 가정하여 병렬 처리가 가능해진다.

결과적으로 순차적 제약에서 벗어나 추론 속도를 최대 3.2배 향상시켰으며, 문장의 의미 구조를 뒤섞는 실험(Semantic Shuffle)에서도 기존 방식보다 훨씬 정확하게 글자를 인식한다. 이는 모델이 단순히 다음 단어를 예측하는 것이 아니라, 이미지 속의 시각적 증거를 직접적으로 텍스트로 역렌더링하기 때문에 가능하다.

방법론

전체 구조는 시각적 특징을 추출하는 Vision Encoder와 이를 바탕으로 텍스트를 복원하는 Diffusion Decoder로 구성된다. 디코딩 과정은 전방향 부패 과정 q(xt | x0)의 역과정으로 모델링되며, 마스크 토큰([MASK])을 점진적으로 실제 토큰으로 교체한다. [원본 토큰 x0와 마스크 토큰을 입력으로] → [시간 t에 따른 가중치 합을 계산해] → [노이즈가 섞인 토큰 xt를 얻고] → [이 값을 모델이 복원하도록 학습한다.]

블록 어텐션(Block-Attention) 메커니즘을 적용하여 연산 효율을 높였다. 시퀀스를 B개의 블록으로 나누고, 블록 내부에서는 모든 토큰이 서로 참조(Bidirectional)하며 병렬로 디코딩되지만, 블록 간에는 이전 블록만 참조하는 인과적(Causal) 구조를 유지한다. 이는 연산 복잡도를 시퀀스 길이 L의 제곱에서 블록 크기 기반의 선형에 가까운 형태로 낮추어 긴 문서 처리를 가능하게 한다.

학습은 2단계 커리큘럼으로 진행된다. 1단계(Stage-I)에서는 대규모의 다양한 데이터셋으로 기초 정렬을 수행하고, 2단계(Stage-II)에서는 여러 번의 추론 결과 간 일관성(Consistency)을 측정하여 불확실성이 높은 '어려운 샘플'을 선별해 집중적으로 미세 조정한다. [추론 결과들 간의 일치도를 입력으로] → [평균 일관성 점수를 계산해] → [임계값보다 낮은 샘플을 추출하고] → [해당 샘플에 가중치를 두어 학습함으로써] 모델의 정밀도를 높인다.

주요 결과

OmniDocBench v1.5 벤치마크에서 레이아웃 정보 없이도 Overall 88.94점을 기록하며 대부분의 Autoregressive 모델을 능가했다. 특히 레이아웃 정보가 주어졌을 때는 93.37점을 달성해 최상위권 성능을 입증했다.

추론 효율성 측면에서 기존 MinerU2.5 대비 99.9% 상대 정확도를 유지하면서도 2.12배 빠른 속도를 보였으며, 정확도를 90% 수준으로 조정할 경우 최대 3.26배까지 가속이 가능함을 확인했다. 이는 병렬 디코딩의 이점을 실질적인 수치로 증명한 결과이다.

Semantic Shuffle 테스트 결과, 텍스트의 의미적 일관성이 파괴된 상황에서도 성능 저하가 거의 없었다. 기존 자기회귀 모델들이 문맥이 끊기면 급격히 성능이 하락하는 것과 대조적으로, MinerU-Diffusion은 실제 이미지의 시각적 증거에 더 강하게 의존하여 인식함을 보여주었다.

기술 상세

아키텍처는 Qwen2-VL-7B의 Vision Encoder와 SDAR-1.7B-Chat-b32 기반의 Diffusion Decoder를 결합했다. 텍스트, 레이아웃 마커, 표 구분자 등을 통합한 단일 시퀀스 인터페이스를 사용하여 이종 문서 요소를 동시에 처리한다.

마스크드 디퓨전 언어 모델(dLM)의 수식적 기반은 증거 하한(ELBO) 최적화에 있으며, 각 단계에서 마스크된 토큰의 로그 확률을 최대화하도록 학습된다. 블록 어텐션 마스크는 블록 내 병렬성과 블록 간 인과성을 동시에 확보하여 추론 시 KV-caching 효율성을 극대화한다.

불확실성 측정 지표 C(x)는 동일 샘플에 대한 T번의 확률적 추론 결과 간의 일치도(PageIoU, CDM, TEDS 등)를 평균하여 계산하며, 이를 통해 데이터 노이즈에 대한 모델의 강인함을 높이는 하드 케이스 마이닝을 수행한다.

한계점

레이아웃 분석 성능이 전체 성능의 병목 구간으로 남아 있으며, 완전 자동 파싱 모드와 레이아웃 정보 제공 모드 간의 성능 격차가 존재한다. 또한 저리소스 언어에 대한 전용 평가는 수행되지 않았다.

실무 활용

긴 문서나 복잡한 표, 수식이 포함된 문서를 빠르게 텍스트로 변환해야 하는 실무 환경에 매우 적합하다. 특히 언어 모델의 환각 현상을 줄여야 하는 금융, 법률, 학술 문서 분석 도구로 활용 가치가 높다.

대규모 아카이브 문서의 고속 디지털화 및 구조화
복잡한 수식과 표가 포함된 논문 PDF의 마크다운 변환
언어적 문맥이 부족하여 기존 OCR이 환각을 일으키는 영수증이나 고문서 인식

코드 공개 여부: 공개

코드 저장소 보기

키워드

OCR(광학 문자 인식)Diffusion Model(디퓨전 모델)Parallel Decoding(병렬 디코딩)Document Parsing(문서 파싱)Curriculum Learning(커리큘럼 학습)