핵심 요약
광학 문자 인식(Optical Character Recognition, OCR)은 시각적 데이터와 텍스트 이해 사이의 중요한 가교 역할을 하며 정보를 디지털화하는 핵심 작업입니다. 현대의 시각-언어 모델(Vision-Language Model, VLM)은 이 분야에서 높은 정확도를 달성했지만, 주로 자기회귀(Autoregressive) 디코딩에 의존합니다. 이는 생성되는 모든 토큰에 대해 순차적인 순전파(Forward Pass)가 필요하기 때문에 긴 문서의 경우 계산 비용이 많이 들고 속도가 느려집니다. 본 연구에서는 이러한 병목 현상을 극복할 수 있는 핵심 기회를 식별했습니다. 개방형 생성과 달리 OCR은 시각적 입력이 고유한 출력 시퀀스를 엄격하게 규정하는 매우 결정론적인 작업이며, 이론적으로 확산 모델(Diffusion Models)을 통한 효율적인 병렬 디코딩이 가능합니다. 그러나 기존의 마스크 확산 모델(Masked Diffusion Models)은 이러한 잠재력을 활용하는 데 실패함을 보여줍니다. 이러한 모델들은 캡셔닝(Captioning)과 같은 유연한 작업에서는 무해하지만, OCR의 엄격하고 정확한 일치 요구 사항에는 치명적인 구조적 불안정성을 초래합니다. 이 간극을 메우기 위해 본 연구에서는 블록 이산 확산(Block Discrete Diffusion)을 활용하여 OCR의 가속 잠재력을 끌어낸 최초의 시각-언어 모델인 DODO를 제안합니다. 생성을 블록으로 분해함으로써 DODO는 전역 확산(Global Diffusion)의 동기화 오류를 완화합니다. 실험 결과, 제안된 방법은 자기회귀 베이스라인 대비 최대 3배 빠른 추론을 가능하게 하면서도 최첨단(SOTA) 수준에 근접한 정확도를 달성했습니다.
핵심 기여
블록 이산 확산(Block Discrete Diffusion) 도입
전체 시퀀스를 한 번에 생성하는 대신 블록 단위로 분해하여 생성함으로써 전역 확산 모델에서 발생하는 동기화 오류를 방지하고 생성 안정성을 확보했다.
OCR의 결정론적 특성 활용
시각적 입력이 출력 텍스트를 엄격하게 결정하는 OCR의 특성을 파악하여, 병렬 디코딩이 가능한 확산 모델 구조를 설계하고 효율성을 극대화했다.
추론 속도 및 효율성 최적화
순차적인 토큰 생성이 필요한 자기회귀 방식의 한계를 극복하여, 정확도 손실을 최소화하면서도 추론 속도를 기존 대비 최대 3배 향상시켰다.
방법론
DODO는 시각적 입력을 조건으로 텍스트를 생성하는 시각-언어 모델(VLM) 구조에 블록 이산 확산(Block Discrete Diffusion) 메커니즘을 결합했다. 전체 텍스트 시퀀스를 독립적인 블록으로 나누어 병렬로 확산 과정을 수행함으로써, 기존 마스크 확산 모델이 긴 문맥에서 겪는 구조적 불안정성과 토큰 간 동기화 오류를 해결했다.
주요 결과
자기회귀(Autoregressive) 방식의 베이스라인 모델들과 비교했을 때, DODO는 최대 3배(3x) 빠른 추론 속도를 기록했다. 또한, 속도 향상에도 불구하고 기존 최첨단(SOTA) 모델들과 대등한 수준의 OCR 정확도를 유지하며 효율성과 성능의 균형을 증명했다.
시사점
긴 문서나 대량의 이미지에서 텍스트를 추출해야 하는 실무 환경에서 추론 비용을 획기적으로 줄일 수 있다. 특히 실시간 처리가 필요한 OCR 서비스나 대규모 데이터셋 구축 시 기존 자기회귀 모델의 속도 한계를 극복하는 대안으로 활용될 가능성이 높다.
키워드
섹션별 상세
블록 이산 확산(Block Discrete Diffusion) 도입
OCR의 결정론적 특성 활용
추론 속도 및 효율성 최적화
AI 요약 · 북마크 · 개인 피드 설정 — 무료