FireRed-OCR-2B: GRPO 강화학습을 활용한 차세대 엔드투엔드 문서 파싱 모델

핵심 요약

기존의 문서 디지털화 방식은 레이아웃 감지와 텍스트 추출을 별도로 처리하여 구조적 환각(Structural Hallucination) 문제가 빈번하게 발생했다. FireRedTeam은 이를 해결하기 위해 Qwen2-VL-2B-Instruct 아키텍처를 기반으로 한 FireRed-OCR-2B를 공개했다. 이 모델은 3단계 점진적 학습 파이프라인과 포맷 제약 GRPO(Format-Constrained GRPO)를 도입하여 문서의 논리적 구조와 수식의 정확성을 극대화했다. 그 결과 OmniDocBench v1.5 벤치마크에서 92.94%를 기록하며 기존 대형 모델들을 제치고 엔드투엔드 솔루션 중 최고 성능(SOTA)을 달성했다.

배경

OCR 및 문서 지능(Document Intelligence) 기본 개념, Markdown 및 LaTeX 구조에 대한 이해, Transformer 기반 Vision-Language Model 기초 지식

대상 독자

RAG 시스템 개발자, 문서 자동화 엔지니어, 데이터 과학자

의미 / 영향

이 모델은 소형 모델도 특정 도메인에 최적화된 강화학습을 적용할 경우 대형 범용 모델을 압도할 수 있음을 시사한다. 이는 기업들이 고비용 대형 모델 대신 효율적인 특화 모델을 RAG 파이프라인의 문서 파싱 단계에 도입하는 계기가 될 것이다.

섹션별 상세

FireRed-OCR-2B는 구조적 환각 해결을 위해 3단계 점진적 학습 파이프라인을 채택했다. 첫 번째 단계인 멀티태스크 사전 정렬에서는 감지 및 레이아웃-마크다운 변환을 통해 공간적 접지를 형성한다. 이후 고품질 마크다운 데이터셋을 활용한 특화 SFT를 거쳐 논리적 일관성을 확보하며 마지막으로 강화학습을 통해 최종 성능을 최적화한다. 이러한 구조 공학적 접근 방식은 단순한 텍스트 생성을 넘어 문서의 계층적 관계를 정확히 파악하게 한다.

이 모델의 핵심 혁신은 별도의 비평가(Critic) 모델 없이도 구조적 타당성을 강화하는 포맷 제약 GRPO 알고리즘의 활용이다. LaTeX 수식의 유효성, 표의 행/열 일관성, 마크다운 태그의 계층적 닫힘 여부 등에 직접적인 보상을 부여하여 구조적 정확도를 높인다. 이를 통해 복잡한 기술 문서 파싱 시 발생하는 구문 오류를 획기적으로 줄이고 수학적 일관성을 유지한다.

비정형 법률 양식이나 그림이 겹친 학술 논문 등 롱테일 레이아웃 문제를 해결하기 위해 기하학+의미론 데이터 팩토리를 개발했다. 기하학적 특징 클러스터링과 다차원 태깅을 결합하여 실제 환경의 복잡성을 반영한 균형 잡힌 데이터셋을 합성한다. 이러한 데이터 엔진 덕분에 모델은 비표준 레이아웃에서도 PaddleOCR과 같은 기존 파이프라인 시스템보다 뛰어난 견고함을 보여준다.

OmniDocBench v1.5에서 92.94%의 점수를 기록하며 DeepSeek-OCR 2(91.09%)나 Gemini-1.5 Pro(90.33%) 같은 대형 모델들을 능가하는 성능을 입증했다. 단일 모델 엔드투엔드 방식이므로 시스템 복잡도와 추론 지연 시간을 대폭 줄일 수 있는 것이 특징이다. 특히 대규모 문서를 처리해야 하는 RAG(검색 증강 생성) 환경의 프로덕션 도입 시 비용과 효율성 측면에서 강력한 이점을 제공한다.

실무 Takeaway

2B 규모의 소형 모델임에도 불구하고 특화된 GRPO 강화학습을 통해 72B급 대형 모델보다 높은 문서 구조 파싱 정확도를 달성했다.
LaTeX 수식과 마크다운 표 구조의 문법적 무결성을 보장하여 데이터 전처리 과정에서의 수동 교정 비용을 크게 절감한다.
엔드투엔드 아키텍처를 통해 기존의 복잡한 멀티스테이지 OCR 파이프라인을 단순화하고 추론 속도를 개선할 수 있다.

핵심 요약

배경

OCR 및 문서 지능(Document Intelligence) 기본 개념, Markdown 및 LaTeX 구조에 대한 이해, Transformer 기반 Vision-Language Model 기초 지식

대상 독자

RAG 시스템 개발자, 문서 자동화 엔지니어, 데이터 과학자

의미 / 영향

섹션별 상세

실무 Takeaway

2B 규모의 소형 모델임에도 불구하고 특화된 GRPO 강화학습을 통해 72B급 대형 모델보다 높은 문서 구조 파싱 정확도를 달성했다.
LaTeX 수식과 마크다운 표 구조의 문법적 무결성을 보장하여 데이터 전처리 과정에서의 수동 교정 비용을 크게 절감한다.
엔드투엔드 아키텍처를 통해 기존의 복잡한 멀티스테이지 OCR 파이프라인을 단순화하고 추론 속도를 개선할 수 있다.

FireRed-OCR-2B: GRPO 강화학습을 활용한 차세대 엔드투엔드 문서 파싱 모델

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

FireRed-OCR-2B: GRPO 강화학습을 활용한 차세대 엔드투엔드 문서 파싱 모델

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글