왜 중요한가
기존 OCR이 텍스트에만 집중하고 차트나 그림은 단순 이미지로 잘라냈던 한계를 극복했다. 문서 내의 모든 시각적 요소를 수정 가능한 SVG 코드로 변환함으로써, AI 학습을 위한 고품질 데이터를 대량으로 확보하고 문서 이해의 정밀도를 획기적으로 높였다.
핵심 기여
MOCR 패러다임 도입
텍스트와 그래픽을 동일한 위상의 파싱 대상으로 취급하여 통합된 텍스트 표현으로 변환하는 새로운 문서 분석 방식을 제시했다.
dots.mocr 모델 개발
3B 파라미터 규모의 경량 모델임에도 불구하고 고해상도 비전 인코더를 통해 복잡한 문서 구조를 정밀하게 재구성한다.
대규모 이미지-코드 데이터 엔진 구축
PDF, 웹페이지, SVG 자산을 활용하여 텍스트와 그래픽이 정렬된 대규모 학습 코퍼스를 생성하는 자동화 파이프라인을 구축했다.
OCR Arena 평가 체계 제안
규칙 기반 지표의 한계를 넘어 LLM을 판정관으로 사용하는 Elo 레이팅 기반의 자동화된 상대 평가 시스템을 도입했다.
핵심 아이디어 이해하기
기존의 OCR 시스템은 텍스트를 인식하는 데는 뛰어나지만, 차트나 다이어그램 같은 그래픽 요소는 단순한 픽셀 덩어리로 취급하여 잘라내는 데 그쳤다. 이는 문서가 가진 풍부한 구조적 정보를 손실시키며, 특히 멀티모달 모델 학습을 위한 데이터로 활용할 때 정보의 단절을 초래한다. Transformer의 Vision Encoder가 이미지를 작은 패치 단위로 나누어 Embedding 벡터로 변환할 때, dots.mocr은 이 벡터들 사이의 공간적 관계를 학습하여 선의 연결이나 도형의 배치를 SVG 코드의 문법과 직접 연결한다.
이 모델은 1100만 픽셀 수준의 고해상도 입력을 처리하여 아주 작은 텍스트나 복잡한 도표의 세밀한 선까지 포착한다. 결과적으로 정적인 이미지를 수정과 재사용이 가능한 동적인 코드로 변환하며, 이는 AI가 문서를 인간처럼 깊이 있게 이해할 수 있는 토대를 마련한다. 3B라는 비교적 작은 크기에도 불구하고 고해상도 정보를 효율적으로 압축하여 언어 모델 디코더에 전달함으로써 복잡한 구조 생성이 가능하다.
방법론
전체 아키텍처는 1.2B 파라미터의 고해상도 비전 인코더, 멀티모달 커넥터, 그리고 Qwen2.5-1.5B 기반의 언어 모델 디코더로 구성된다. 고해상도 인코더는 최대 11M 픽셀의 입력을 받아 세밀한 그래픽 프리미티브를 정확히 로컬라이즈하며, 이는 작은 폰트나 밀집된 레이아웃의 가독성을 보장한다.
학습은 3단계의 스테이지로 진행된다. 1단계에서는 일반적인 비전-언어 정렬을 수행하고, 2단계에서는 텍스트 중심의 문서 파싱 능력을 배양하며, 3단계에서는 이미지-to-SVG 변환과 같은 그래픽 파싱 비중을 높여 복합적인 문서 이해 능력을 완성한다. 특히 SVG 데이터의 경우, 동일한 시각적 결과에 대해 다양한 코드가 존재할 수 있으므로 정규화 및 품질 관리 프로세스를 거쳐 학습 안정성을 확보한다.
평가 시스템인 OCR Arena에서는 Elo 레이팅을 사용한다. 승리 확률 E_A는 두 모델의 현재 레이팅 차이(R_B - R_A)를 입력으로 하여 [레이팅 차이를 400으로 나누고 10의 지수로 취한 뒤 1을 더해 역수를 취하는 연산]을 수행한다. 이 결과로 0에서 1 사이의 확률값이 출력되며, 이는 모델 A가 모델 B를 이길 것으로 기대되는 정도를 의미한다. 이 확률값과 실제 승패 결과의 차이를 이용해 모델의 레이팅을 갱신함으로써 객관적인 성능 순위를 산출한다.
주요 결과
olmOCR-Bench에서 83.9점을 기록하며 기존 오픈소스 모델들을 제치고 새로운 SOTA를 달성했다. 특히 ArXiv 논문, 수학 스캔본, 표 인식 등 정밀도가 요구되는 카테고리에서 고른 성능 우위를 보였다. 3B 규모의 모델임에도 불구하고 상용 모델인 Gemini 3 Pro에 이어 전체 2위를 차지하며 효율성을 입증했다.
그래픽 복원 성능을 측정하는 ISVGEN 지표에서 dots.mocr-svg 모델은 Gemini 3 Pro를 능가하는 결과를 나타냈다. 차트(ChartMimic), UI 레이아웃(Design2Code), 화학 구조식(ChemDraw) 등 정밀한 구조 재구성이 필요한 작업에서 탁월한 성능을 보였으며, 이는 단순한 텍스트 인식을 넘어 시각적 요소의 논리적 구조를 완벽히 파악하고 있음을 시사한다.
실무 활용
문서 내의 표, 차트, 수식을 즉시 편집 가능한 데이터로 변환해야 하는 업무 자동화 및 데이터 전처리 분야에 즉각 활용 가능하다.
- 논문이나 보고서의 차트를 SVG 코드로 변환하여 데이터 시각화 도구에서 재편집
- 복잡한 레이아웃의 웹페이지 스크린샷을 깨끗한 Markdown 및 구조화된 코드로 복구
- 멀티모달 AI 학습을 위해 대규모 문서 아카이브를 고품질 이미지-코드 쌍으로 변환
기술 상세
모델은 1.2B 비전 인코더와 1.5B LLM 디코더를 결합한 비대칭 구조를 가진다. 인코더는 처음부터 학습되어 문서 파싱에 최적화된 특징 표현을 학습하며, 디코더는 Qwen2.5-1.5B를 초기값으로 사용하여 강력한 언어 생성 능력을 활용한다. 입력 해상도는 가변적이며 최대 11M 픽셀까지 지원하여 고밀도 텍스트와 세밀한 기하학적 기호를 동시에 처리한다.
학습 과정에서 SVG 코드의 비고유성 문제를 해결하기 위해 정규화 기법을 적용했다. 수치 정밀도 표준화, 코드 구조 최적화, 렌더링 기반의 검증 루프를 통해 생성된 코드와 원본 이미지 간의 시각적 일치성을 극대화했다. 데이터 엔진은 PDF에서 추출한 텍스트, 렌더링된 웹페이지의 HTML/DOM 구조, 그리고 네이티브 SVG 자산을 결합하여 풍부한 감독 신호를 제공한다.
한계점
현재 릴리스된 버전은 태스크 조건부 모델로, 한 번의 추론으로 전체 페이지 파싱과 세부 그래픽 파싱을 동시에 수행하지는 못하며 별도의 패스로 실행해야 한다. 또한 표와 수식 인식 성능은 향후 더 고품질의 데이터 확장을 통해 개선될 여지가 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.