핵심 요약
기존 시각-언어 모델(VLM)은 문서를 한 글자씩 순차적으로 읽어 처리 속도가 매우 느렸으나, 이 논문은 여러 토큰을 동시에 예측하는 병렬 방식을 도입해 속도를 2배 이상 높였다. 이는 대규모 문서 처리 비용을 절감할 뿐만 아니라 모델이 문맥을 더 넓게 파악하게 하여 오답(환각)을 줄이는 효과도 제공한다.
왜 중요한가
기존 시각-언어 모델(VLM)은 문서를 한 글자씩 순차적으로 읽어 처리 속도가 매우 느렸으나, 이 논문은 여러 토큰을 동시에 예측하는 병렬 방식을 도입해 속도를 2배 이상 높였다. 이는 대규모 문서 처리 비용을 절감할 뿐만 아니라 모델이 문맥을 더 넓게 파악하게 하여 오답(환각)을 줄이는 효과도 제공한다.
핵심 기여
병렬 토큰 예측(PTP) 프레임워크 제안
VLM의 순차적 생성 병목을 해결하기 위해 학습 가능한 레지스터 토큰을 삽입하여 한 번의 디코딩 단계에서 여러 미래 토큰을 동시에 생성하는 모델 불가지론적(Model-agnostic) 방법을 개발했다.
고품질 레이아웃 수준 문서 파싱 데이터셋 구축
180만 개의 고품질 샘플을 포함하는 대규모 문서 파싱 데이터셋을 자동화된 파이프라인을 통해 구축하여 모델의 일반화 성능을 강화했다.
추론 속도 및 정확도의 동시 향상
OmniDocBench 등 주요 벤치마크에서 기존 Next-Token Prediction 대비 1.6배에서 2.2배의 처리량 향상을 달성했으며, 동시에 텍스트 및 수식 인식의 정확도를 높이고 환각 현상을 줄였다.
핵심 아이디어 이해하기
Transformer의 Autoregressive Decoding은 이전 토큰이 생성되어야 다음 토큰을 계산할 수 있는 순차적 구조를 가진다. 문서 파싱처럼 수천 개의 토큰을 생성해야 하는 작업에서는 이 방식이 심각한 지연을 초래하며 실시간 서비스 적용을 어렵게 만든다. PTP는 입력 시퀀스 사이에 '레지스터 토큰'이라는 특수 장치를 끼워 넣어, 모델이 현재 토큰을 처리하는 동시에 미래의 N개 토큰을 미리 내다보게 한다. 이는 마치 숙련된 독자가 단어 하나하나가 아니라 문장 전체를 훑어보며 빠르게 읽는 것과 유사한 원리로 작동한다. 이 과정에서 레지스터 토큰은 이미지의 서로 다른 영역에 대한 정보를 병렬로 수집하여 예측의 근거로 삼는다. 결과적으로 모델은 순차적 제약에서 벗어나 더 넓은 시각적 문맥을 동시에 활용하게 되며, 이는 속도 향상뿐만 아니라 텍스트 인식의 정확도와 일관성을 높이는 결과로 이어진다.
방법론
PTP는 기존 VLM 아키텍처를 수정하지 않고 입력 시퀀스에 N개의 특수 레지스터 토큰을 추가하는 플러그인 방식을 채택한다. 학습 시 각 일반 토큰 뒤에 레지스터 토큰을 배치하고, 각 레지스터가 자신의 위치 오프셋에 해당하는 미래 토큰을 예측하도록 학습 목표를 설정한다. 인과적 어텐션 마스크(Causal Attention Mask)를 수정하여 레지스터 토큰 간의 독립성을 보장한다. 일반 토큰은 이전 일반 토큰만 참조하고 레지스터 토큰은 무시하지만, 레지스터 토큰은 이전의 모든 일반 토큰과 동일 그룹 내의 레지스터 토큰을 참조하여 미래 값을 계산한다. [입력 시퀀스 → 마스크 적용 → 병렬 로짓 출력 → 다중 토큰 생성] 과정을 통해 연산 효율을 극대화한다. 추론 단계에서는 KV Cache 관리 전략을 최적화한다. 레지스터 토큰이 예측한 토큰들을 다음 단계의 입력으로 사용하기 위해, 매 단계마다 레지스터 토큰에 대응하는 KV Cache를 제거하고 실제 예측된 토큰의 값으로 업데이트하여 출력의 일관성을 유지한다. SR ≈ (1 + n) * Lθ / L'θ 식에 따라 [추론 단계당 지연 시간 Lθ와 병렬 생성 토큰 수 n을 입력으로] → [병렬 처리에 따른 실제 지연 시간 L'θ로 나누는 연산을 수행해] → [이론적인 속도 향상 비율(SR)을 계산하고] → [이 수치가 1보다 클수록 효율적인 병렬화가 이루어졌음을 확인한다.]
주요 결과
OmniDocBench 데이터셋에서 Qwen2.5-VL-3B 모델을 기반으로 실험한 결과, PTP-1(1개 레지스터 사용)은 1.6배, PTP-2(2개 레지스터 사용)는 2.2배의 처리량(Throughput) 향상을 기록했다. 특히 텍스트 편집 거리(Edit Distance) 기준 성능이 기존 NTP 방식보다 향상되어 속도와 정확도의 트레이드오프를 극복했다. 수식 인식(Formula Recognition) 작업에서도 우수한 성과를 보였다. CDM(Character Detection Matching) 지표에서 PTP-0 모델은 91.59를 기록하며 기존 SOTA 모델인 GPT-4o(86.80)나 전문 모델들을 상회하는 성능을 입증했다. 환각 제어 실험에서 PTP는 노이즈가 섞인 이미지에 대해 NTP 대비 현저히 낮은 오류율을 보였다. 이는 병렬 예측 구조가 순차적 생성의 고질적 문제인 '이전 오류의 누적'을 방지하고 시각적 정보에 더 직접적으로 의존하게 만들기 때문으로 분석된다.
실무 활용
대규모 문서 디지털화 및 RAG 시스템의 전처리 단계에서 비용과 시간을 획기적으로 줄일 수 있는 실용적인 기술이다. 기존 VLM 아키텍처를 그대로 유지하면서 학습 방식만 변경하면 되므로 적용 범용성이 매우 높다.
- 대규모 PDF 라이브러리의 구조화된 데이터 추출 자동화
- 실시간 모바일 OCR 서비스의 응답 속도 개선
- 복잡한 수식이나 표가 포함된 학술 논문의 고정밀 디지털 변환
기술 상세
PTP 아키텍처는 추가적인 파라미터나 레이어 없이 입력 임베딩 계층에 레지스터 토큰을 정의하는 것만으로 구현된다. 모든 레지스터 토큰은 동일한 학습 가능한 임베딩을 공유하지만, 서로 다른 위치 인코딩(Position Encoding)을 부여받아 각기 다른 미래 시점의 토큰을 예측하도록 유도된다. 학습 시 사용되는 Causal Attention Mask는 레지스터 토큰이 미래의 일반 토큰 정보를 미리 보지 못하도록 엄격히 제한한다. 대신 레지스터 토큰은 자신보다 앞선 모든 일반 토큰과 동일한 위치 그룹에 속한 레지스터 토큰들만을 참조하여, 독립적인 병렬 예측 경로를 형성한다. 추론 시에는 'KV Cache Replacement' 전략이 핵심이다. 레지스터 토큰에 의해 생성된 임시 KV Cache는 다음 단계에서 실제 예측된 토큰의 정확한 KV Cache로 교체된다. 이 과정은 연산 오버헤드가 거의 없으며, 모델이 항상 가장 정확한 문맥 정보를 바탕으로 다음 병렬 예측을 수행할 수 있도록 보장한다. 또한 Self-Speculative Decoding 기법과 결합하여 ScienceQA 벤치마크에서 82%의 높은 수용률을 기록하며 VLU 작업에서의 범용성을 입증했다.
한계점
레지스터 토큰의 개수(n)가 증가할수록 예측 난이도가 기하급수적으로 상승하여 n=3 이상에서는 성능 저하가 관찰된다. 또한 병렬 예측을 위해 입력 시퀀스 길이가 늘어남에 따라 학습 시 메모리 점유율이 상승하며, 매우 복잡한 레이아웃의 문서에서는 병렬 토큰 간의 논리적 순서가 어긋날 위험이 존재한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료