Nanonets OCR-3 출시: IDP 벤치마크 1위 달성 및 에이전트 스택 최적화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Nanonets가 VLM과 전통적 OCR 엔진을 결합하여 정확도를 극대화하고 RAG 및 에이전트 워크플로우에 최적화된 OCR-3 모델을 공개했다.

Nanonets가 자사의 최신 OCR 모델인 OCR-3를 출시하며 주요 벤치마크 결과와 에이전트 및 RAG 시스템 구축에 최적화된 주요 기능들을 공개했다.

이 토론에서 VLM의 한계를 극복하기 위한 하이브리드 OCR 아키텍처가 차세대 IDP 솔루션의 표준이 될 것임이 확인됐다. 커뮤니티는 단순 성능 수치보다 RAG와 에이전트 스택에 즉시 통합 가능한 기능적 완성도에 높은 가치를 두고 있다.

게시물은 주로 모델의 성능 지표와 구체적인 기능 설명에 집중하고 있으며, 특히 VLM의 단점을 보완한 하이브리드 접근 방식에 대해 긍정적인 반응을 얻고 있다.

01찬성다수

VLM과 전통적 OCR의 결합이 실제 프로덕션 환경에서 발생하는 숫자 인식 오류를 해결하는 가장 현실적인 방법이다.

Nanonets OCR-3는 OLM-OCR 93.1, OmniDocBench 90.5, IDP-Core 90.3 점수를 기록하며 IDP 리더보드에서 세계 1위를 차지했다. 이는 문서 이해 및 데이터 추출 성능이 기존 상용 모델들을 상회함을 입증하는 수치이다.

VLM이 숫자나 날짜에서 일으키는 환각 문제를 해결하기 위해 레이아웃 파싱에는 VLM을, 문자 인식에는 결정론적인 전통적 OCR 엔진을 병용하는 하이브리드 방식을 채택했다. 이를 통해 문서의 의미론적 구조 파악과 문자 단위의 정확성을 동시에 확보했다.

에이전트 워크플로우를 지원하기 위해 /parse, /extract, /split, /chunk, /vqa 등 5가지 전용 엔드포인트를 제공한다. 특히 /chunk 엔드포인트는 문맥을 인식하여 문서를 분할함으로써 RAG 검색 효율과 추론 정확도를 높이도록 설계됐다.

7년간의 문서 AI 개발 경험을 바탕으로 병합된 셀이 포함된 복잡한 표를 HTML로 보존하고 W2, W4와 같은 정형 폼에서 99% 이상의 필드 추출 정확도를 달성했다. 단순 텍스트 추출을 넘어 문서의 시각적 구조와 메타데이터를 완벽히 재현하는 데 중점을 두었다.

추출된 모든 요소에 대해 신뢰도 점수와 페이지 좌표(Bounding Box)를 제공하여 데이터의 신뢰성을 높였다. 낮은 신뢰도의 데이터는 자동으로 인간 검토 단계로 라우팅하며, 바운딩 박스 정보는 RAG의 인용 출처 확인 및 UI 하이라이팅에 활용된다.

Nanonets OCR-3는 VLM의 의미론적 이해력과 전통적 OCR의 정확성을 결합하여 숫자 환각 문제를 해결하고 IDP 벤치마크 1위를 기록했다.
RAG 시스템 구축을 위해 문맥 인식 청킹(/chunk)과 출처 확인을 위한 바운딩 박스 데이터를 기본으로 제공하여 검색 정확도와 신뢰성을 높였다.
복잡한 표 구조를 HTML로 변환하여 셀 병합이나 중첩 구조를 보존함으로써 데이터 손실 없는 문서 파싱이 가능하다.

Nanonets OCR-3추천

지능형 문서 처리 및 데이터 추출