바이두, 4B 파라미터 엔드투엔드 문서 이해 모델 'Qianfan-OCR' 오픈소스 공개

핵심 요약

바이두가 레이아웃 추론 기법을 도입하여 192개 언어를 지원하고 대형 모델보다 높은 성능을 기록한 4B 규모의 엔드투엔드 문서 이해 모델 Qianfan-OCR을 공개했다.

배경

바이두 연구팀이 기존의 단계별 OCR 파이프라인을 대체하기 위해 레이아웃 분석과 정보 추출을 한 번에 수행하는 4B 파라미터 규모의 시각-언어 모델 Qianfan-OCR을 개발하여 오픈소스로 공개했다.

의미 / 영향

문서 이해 분야에서 엔드투엔드 VLM이 기존의 다단계 파이프라인보다 효율적이고 강력할 수 있음을 입증했다. 특히 소규모 모델(4B)이 특정 도메인에서 거대 모델을 압도할 수 있다는 점은 로컬 환경에서의 AI 활용 가능성을 더욱 넓혀준다.

커뮤니티 반응

대체로 긍정적이며, 특히 4B라는 작은 크기로 거대 모델을 능가하는 벤치마크 결과와 vLLM 지원에 대해 높은 관심을 보였다.

실용적 조언

높은 정확도가 필요한 복잡한 양식의 문서에는 Layout-as-Thought 기능을 활성화하여 사용하고, 단순 텍스트 추출 시에는 비활성화하여 속도를 높일 수 있다.
vLLM을 사용하여 즉시 서빙이 가능하므로 기존 LLM 인프라에 쉽게 통합하여 문서 처리 자동화에 활용 가능하다.

언급된 도구

vLLM추천

고성능 추론 및 서빙 엔진

Qianfan-OCR추천

엔드투엔드 시각-언어 문서 이해 모델

섹션별 상세

Qianfan-OCR은 기존의 '검출-인식-LLM'으로 이어지는 복잡한 파이프라인 대신 단일 순전파(Forward Pass)로 모든 과정을 처리하는 엔드투엔드 방식을 채택했다. 이를 통해 OCR, 레이아웃 분석, 표 추출, 수식 및 차트 이해, 핵심 정보 추출(KIE)을 통합적으로 수행하며 시스템 복잡도를 낮췄다.

'Layout-as-Thought'라는 독창적인 개념을 도입하여 모델이 최종 출력을 생성하기 전에 바운딩 박스, 요소 유형, 읽기 순서 등을 먼저 추론하도록 설계했다. 이는 텍스트 생성에서의 Chain-of-Thought와 유사한 방식으로 작동하며, 사용자의 필요에 따라 정확도 우선 또는 속도 우선 모드로 전환이 가능하다.

성능 면에서 4B라는 비교적 작은 파라미터 수에도 불구하고 OmniDocBench v1.5에서 93.12점을 기록하며 엔드투엔드 모델 중 1위를 차지했다. 특히 핵심 정보 추출(KIE) 평균 점수에서 Gemini-3.1-Pro나 Qwen3-VL-235B와 같은 거대 모델들을 앞서는 결과를 보여주었다.

실무 적용성을 높이기 위해 W8A8 양자화를 적용했을 때 A100 GPU 한 장에서 초당 1.024페이지를 처리하는 속도를 확보했다. 또한 한국어를 포함한 CJK 언어와 라틴어, 아랍어 등 총 192개 언어를 지원하며 vLLM 라이브러리를 통해 즉시 배포가 가능하다는 점이 특징이다.

실무 Takeaway

4B 파라미터 규모로 Gemini-3.1-Pro 등 거대 모델보다 우수한 문서 이해 및 KIE 성능 달성
Layout-as-Thought 기법을 통해 문서 구조를 먼저 파악하여 복잡한 양식의 추출 정확도 극대화
192개 언어 지원 및 vLLM 호환으로 실제 서비스 도입에 용이한 범용성 확보
2.85T 토큰 학습과 4단계 훈련 과정을 통해 정교한 시각-언어 정렬 구현

언급된 리소스

문서Hugging Face Model: Qianfan-OCR

논문Technical Report (arXiv)

GitHubGitHub Repository: Qianfan-VL

핵심 요약

배경

의미 / 영향

커뮤니티 반응

대체로 긍정적이며, 특히 4B라는 작은 크기로 거대 모델을 능가하는 벤치마크 결과와 vLLM 지원에 대해 높은 관심을 보였다.

실용적 조언

높은 정확도가 필요한 복잡한 양식의 문서에는 Layout-as-Thought 기능을 활성화하여 사용하고, 단순 텍스트 추출 시에는 비활성화하여 속도를 높일 수 있다.
vLLM을 사용하여 즉시 서빙이 가능하므로 기존 LLM 인프라에 쉽게 통합하여 문서 처리 자동화에 활용 가능하다.

언급된 도구

vLLM추천

고성능 추론 및 서빙 엔진

Qianfan-OCR추천

엔드투엔드 시각-언어 문서 이해 모델

섹션별 상세

실무 Takeaway

4B 파라미터 규모로 Gemini-3.1-Pro 등 거대 모델보다 우수한 문서 이해 및 KIE 성능 달성
Layout-as-Thought 기법을 통해 문서 구조를 먼저 파악하여 복잡한 양식의 추출 정확도 극대화
192개 언어 지원 및 vLLM 호환으로 실제 서비스 도입에 용이한 범용성 확보
2.85T 토큰 학습과 4단계 훈련 과정을 통해 정교한 시각-언어 정렬 구현

언급된 리소스

문서Hugging Face Model: Qianfan-OCR

논문Technical Report (arXiv)

GitHubGitHub Repository: Qianfan-VL

바이두, 4B 파라미터 엔드투엔드 문서 이해 모델 'Qianfan-OCR' 오픈소스 공개

핵심 요약

배경

의미 / 영향

커뮤니티 반응

실용적 조언

언급된 도구

섹션별 상세

실무 Takeaway

언급된 리소스

바이두, 4B 파라미터 엔드투엔드 문서 이해 모델 'Qianfan-OCR' 오픈소스 공개

핵심 요약

배경

의미 / 영향

커뮤니티 반응

실용적 조언

언급된 도구

섹션별 상세

실무 Takeaway

언급된 리소스

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글