핵심 요약
바이두가 레이아웃 추론 기법을 도입하여 192개 언어를 지원하고 대형 모델보다 높은 성능을 기록한 4B 규모의 엔드투엔드 문서 이해 모델 Qianfan-OCR을 공개했다.
배경
바이두 연구팀이 기존의 단계별 OCR 파이프라인을 대체하기 위해 레이아웃 분석과 정보 추출을 한 번에 수행하는 4B 파라미터 규모의 시각-언어 모델 Qianfan-OCR을 개발하여 오픈소스로 공개했다.
의미 / 영향
문서 이해 분야에서 엔드투엔드 VLM이 기존의 다단계 파이프라인보다 효율적이고 강력할 수 있음을 입증했다. 특히 소규모 모델(4B)이 특정 도메인에서 거대 모델을 압도할 수 있다는 점은 로컬 환경에서의 AI 활용 가능성을 더욱 넓혀준다.
커뮤니티 반응
대체로 긍정적이며, 특히 4B라는 작은 크기로 거대 모델을 능가하는 벤치마크 결과와 vLLM 지원에 대해 높은 관심을 보였다.
실용적 조언
- 높은 정확도가 필요한 복잡한 양식의 문서에는 Layout-as-Thought 기능을 활성화하여 사용하고, 단순 텍스트 추출 시에는 비활성화하여 속도를 높일 수 있다.
- vLLM을 사용하여 즉시 서빙이 가능하므로 기존 LLM 인프라에 쉽게 통합하여 문서 처리 자동화에 활용 가능하다.
언급된 도구
vLLM추천
고성능 추론 및 서빙 엔진
Qianfan-OCR추천
엔드투엔드 시각-언어 문서 이해 모델
섹션별 상세
Qianfan-OCR은 기존의 '검출-인식-LLM'으로 이어지는 복잡한 파이프라인 대신 단일 순전파(Forward Pass)로 모든 과정을 처리하는 엔드투엔드 방식을 채택했다. 이를 통해 OCR, 레이아웃 분석, 표 추출, 수식 및 차트 이해, 핵심 정보 추출(KIE)을 통합적으로 수행하며 시스템 복잡도를 낮췄다.
'Layout-as-Thought'라는 독창적인 개념을 도입하여 모델이 최종 출력을 생성하기 전에 바운딩 박스, 요소 유형, 읽기 순서 등을 먼저 추론하도록 설계했다. 이는 텍스트 생성에서의 Chain-of-Thought와 유사한 방식으로 작동하며, 사용자의 필요에 따라 정확도 우선 또는 속도 우선 모드로 전환이 가능하다.
성능 면에서 4B라는 비교적 작은 파라미터 수에도 불구하고 OmniDocBench v1.5에서 93.12점을 기록하며 엔드투엔드 모델 중 1위를 차지했다. 특히 핵심 정보 추출(KIE) 평균 점수에서 Gemini-3.1-Pro나 Qwen3-VL-235B와 같은 거대 모델들을 앞서는 결과를 보여주었다.
실무 적용성을 높이기 위해 W8A8 양자화를 적용했을 때 A100 GPU 한 장에서 초당 1.024페이지를 처리하는 속도를 확보했다. 또한 한국어를 포함한 CJK 언어와 라틴어, 아랍어 등 총 192개 언어를 지원하며 vLLM 라이브러리를 통해 즉시 배포가 가능하다는 점이 특징이다.
실무 Takeaway
- 4B 파라미터 규모로 Gemini-3.1-Pro 등 거대 모델보다 우수한 문서 이해 및 KIE 성능 달성
- Layout-as-Thought 기법을 통해 문서 구조를 먼저 파악하여 복잡한 양식의 추출 정확도 극대화
- 192개 언어 지원 및 vLLM 호환으로 실제 서비스 도입에 용이한 범용성 확보
- 2.85T 토큰 학습과 4단계 훈련 과정을 통해 정교한 시각-언어 정렬 구현
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료