핵심 요약
NVIDIA는 대규모 고품질 데이터 확보의 어려움을 해결하기 위해 합성 데이터 생성 파이프라인을 구축하고 이를 통해 학습된 Nemotron OCR v2를 발표했습니다. mOSCAR 코퍼스와 오픈소스 폰트를 결합해 6개 언어에 걸쳐 1,220만 개의 정교한 합성 데이터를 생성했으며, 이를 통해 기존 모델 대비 비영어권 언어의 편집 거리(NED) 점수를 획기적으로 낮췄습니다. 모델 아키텍처는 FOTS 설계를 기반으로 검출기, 인식기, 관계 모델이 백본 특징을 공유하도록 설계되어 A100 GPU 한 장에서 초당 34.7페이지를 처리하는 고성능을 달성했습니다. 이 모델과 데이터셋은 허깅페이스를 통해 공개되어 누구나 상업적으로 이용 가능하며 새로운 언어로의 확장성도 갖추고 있습니다.
배경
OCR(광학 문자 인식)의 기본 개념, Transformer 아키텍처에 대한 이해, 데이터 증강(Augmentation) 및 합성 데이터 생성 기법
대상 독자
다국어 문서 처리 시스템을 구축하는 AI 엔지니어 및 MLOps 전문가
의미 / 영향
이 연구는 고품질 데이터 확보가 어려운 소수 언어나 복잡한 레이아웃의 OCR 성능을 합성 데이터만으로도 상용 수준까지 끌어올릴 수 있음을 증명했습니다. 특히 속도와 정확도를 동시에 잡은 모델을 오픈소스로 공개함으로써 문서 자동화 및 RAG 시스템의 전처리 단계에서 큰 비용 절감 효과를 가져올 것으로 기대됩니다.
섹션별 상세



실무 Takeaway
- 한국어, 일본어 등 띄어쓰기가 불분명한 언어의 OCR 성능을 높이려면 단어 단위가 아닌 라인 단위 인식 모델을 설계하고 학습시켜야 한다.
- 고품질 주석 데이터가 부족한 다국어 OCR 프로젝트에서 mOSCAR와 같은 웹 코퍼스와 오픈소스 폰트를 활용한 합성 데이터 생성은 비용 효율적인 대안이 된다.
- 실시간 처리가 필요한 프로덕션 환경에서는 검출기와 인식기가 백본 특징을 공유하는 아키텍처를 선택하여 추론 지연 시간을 최소화할 수 있다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.