핵심 요약
기존 OCR 시스템은 PDF를 단순 텍스트나 마크다운으로 변환하여 수식이나 표의 구조적 정보를 손실하는 경우가 많았다. 이 논문은 단순 텍스트 인식을 넘어 실제 논문 출판에 즉시 사용 가능한 컴파일 가능한 LaTeX 코드로 복원하는 기술을 제시하여 과학 지식의 재사용성을 극대화한다.
왜 중요한가
기존 OCR 시스템은 PDF를 단순 텍스트나 마크다운으로 변환하여 수식이나 표의 구조적 정보를 손실하는 경우가 많았다. 이 논문은 단순 텍스트 인식을 넘어 실제 논문 출판에 즉시 사용 가능한 컴파일 가능한 LaTeX 코드로 복원하는 기술을 제시하여 과학 지식의 재사용성을 극대화한다.
핵심 기여
TEXOCR-Bench 벤치마크 구축
단순 텍스트 일치도를 넘어 전사 정확도, 구조적 충실도, 최종 컴파일 성공률을 종합적으로 평가하는 2,135개의 전문가 주석 데이터셋을 구축했다.
TEXOCR-Train 대규모 학습 코퍼스 공개
arXiv 소스 아카이브를 활용하여 57,000개의 논문과 404,000개의 페이지 이미지-LaTeX 쌍으로 구성된 대규모 학습 데이터를 정렬 및 정제하여 공개했다.
검증 가능한 보상을 활용한 RLVR 학습 프레임워크
LaTeX 유닛 테스트 결과를 보상 신호로 사용하는 강화학습 기법을 도입하여 모델이 LaTeX의 문법적 제약과 참조 무결성을 스스로 학습하도록 설계했다.
핵심 아이디어 이해하기
기존의 Transformer 기반 MLLM은 다음 토큰을 예측하는 확률적 방식에 의존하기 때문에 LaTeX의 괄호 쌍을 맞추거나 존재하지 않는 수식을 참조하는 등의 논리적 오류를 자주 범한다. 이는 텍스트의 표면적 유사도는 높을지라도 실제 컴파일 시에는 치명적인 오류로 이어진다.
이 문제를 해결하기 위해 연구진은 모델이 생성한 LaTeX 코드를 실제로 컴파일러에 통과시켜 성공 여부를 확인하는 '검증 가능한 보상(Verifiable Rewards)' 개념을 도입했다. 이는 강화학습의 보상 함수를 단순한 텍스트 겹침이 아닌 실제 실행 가능성(Executability)에 기반하도록 설정한 것이다.
결과적으로 모델은 학습 과정에서 단순한 전사를 넘어 LaTeX의 구조적 규칙(Invariants)을 내면화하게 된다. 예를 들어 수식 환경이 열리면 반드시 닫혀야 한다는 점이나, 본문 내 인용 번호가 참고문헌 리스트와 일치해야 한다는 점 등을 강화학습을 통해 보정하며 컴파일 성공률을 비약적으로 높였다.
방법론
전체 접근 방식은 2단계 학습 파이프라인으로 구성된다. 1단계에서는 대규모 TEXOCR-Train 데이터셋을 사용하여 지도 학습 기반 미세 조정(SFT)을 수행하여 기본적인 페이지 전사 능력을 확보한다. 2단계에서는 RLVR(Reinforcement Learning with Verifiable Rewards)을 적용하여 구조적 정확도를 극대화한다.
RLVR 단계에서는 각 페이지 이미지 x에 대해 K개의 LaTeX 생성 결과 {y_1, ..., y_K}를 샘플링한다. 각 생성 결과는 9가지 유닛 테스트(텍스트 보존, 수식 정확도, 표 정확도, 섹션 구조, 인용 범위, 참조 유효성 등)를 거치며, 통과된 테스트의 비율이 보상 R(x, y)로 계산된다.
최적화 알고리즘으로는 GRPO 스타일의 업데이트 방식을 사용한다. 그룹 내 보상의 평균과 표준편차를 이용해 Advantage를 계산하고, SFT 모델과의 KL Divergence를 페널티로 부여하여 학습의 안정성을 유지한다. [K개의 샘플 보상값 입력 → 그룹 내 정규화 연산 → Advantage 산출 → 정책 업데이트 및 구조적 규칙 내면화]
주요 결과
TEXOCR 모델(2B 파라미터)은 TEXOCR-Bench 평가에서 오픈소스 베이스라인 중 가장 강력한 성능을 기록했다. 특히 RLVR 학습 이후 구조적 충실도(Structural Faithfulness) 점수가 SFT 단독 모델 대비 74.0에서 83.1로 크게 향상되었다.
상용 모델인 GPT-5.3과의 비교에서 전체 점수는 GPT-5.3이 78.5로 앞섰으나, TEXOCR(SFT+RLVR)은 75.0을 기록하며 격차를 좁혔다. 특히 참조 유효성(RV) 지표에서는 TEXOCR이 86.8을 기록하여 GPT-5.3의 65.2를 크게 상회하는 등 구조적 일관성 측면에서 우위를 보였다.
Ablation Study 결과, 특정 유닛 테스트 보상을 제거할 때마다 해당 지표의 성능이 즉각적으로 하락하는 것이 확인되어, 각 보상 신호가 모델의 특정 기능 개선에 직접적으로 기여함을 입증했다.
기술 상세
모델 아키텍처는 Qwen3-VL-2B를 기반으로 하며, 페이지 단위 추론 프로토콜을 채택했다. 각 PDF 페이지는 단일 이미지로 렌더링되어 독립적으로 처리된 후 문서 순서대로 결합된다.
학습 과정에서 'Float Placement' 문제를 해결하기 위해 pdf2figure 도구를 사용하여 PDF 내 표와 그림의 위치를 감지하고, 이를 LaTeX 소스의 선형적 순서와 매핑하는 전처리 과정을 거쳤다. 또한 참고문헌 페이지의 경우 일반 LaTeX 대신 BibTeX 엔트리를 직접 생성하도록 유도하여 데이터 활용성을 높였다.
RLVR 구현 시 그룹 크기 K=16 이상에서 성능이 안정화되는 경향을 보였으며, 이는 복잡한 LaTeX 문법 공간에서 유의미한 Advantage를 계산하기 위해 충분한 수의 샘플링이 필수적임을 시사한다.
한계점
현재 모델은 페이지 단위 추론에 집중하고 있어 여러 페이지에 걸쳐 이어지는 문맥이나 장거리 종속성(Long-range dependencies)을 완벽하게 캡처하는 데 한계가 있다. 또한 컴파일 성공률이 크게 개선되었음에도 불구하고 여전히 수동 수정이 필요한 오류가 일부 발생한다.
실무 활용
과학 논문 PDF를 편집 가능한 LaTeX 소스로 복원하는 실무 도구로 즉시 활용 가능하다. 특히 수식과 표가 많은 학술 자료의 디지털 자산화에 최적화되어 있다.
- 오래된 PDF 논문을 최신 LaTeX 템플릿으로 재구성하여 출판
- PDF 내 복잡한 수식과 표를 정확하게 추출하여 데이터베이스화
- 시각 장애인을 위한 수식 읽기 도구의 백엔드로 활용 (구조적 LaTeX 제공)
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.