합성 데이터를 활용한 고성능 다국어 OCR 모델 구축 가이드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

NVIDIA는 대규모 고품질 데이터 확보의 어려움을 해결하기 위해 합성 데이터 생성 파이프라인을 구축하고 이를 통해 학습된 Nemotron OCR v2를 발표했습니다. mOSCAR 코퍼스와 오픈소스 폰트를 결합해 6개 언어에 걸쳐 1,220만 개의 정교한 합성 데이터를 생성했으며, 이를 통해 기존 모델 대비 비영어권 언어의 편집 거리(NED) 점수를 획기적으로 낮췄습니다. 모델 아키텍처는 FOTS 설계를 기반으로 검출기, 인식기, 관계 모델이 백본 특징을 공유하도록 설계되어 A100 GPU 한 장에서 초당 34.7페이지를 처리하는 고성능을 달성했습니다. 이 모델과 데이터셋은 허깅페이스를 통해 공개되어 누구나 상업적으로 이용 가능하며 새로운 언어로의 확장성도 갖추고 있습니다.

배경

OCR(광학 문자 인식)의 기본 개념, Transformer 아키텍처에 대한 이해, 데이터 증강(Augmentation) 및 합성 데이터 생성 기법

대상 독자

다국어 문서 처리 시스템을 구축하는 AI 엔지니어 및 MLOps 전문가

의미 / 영향

이 연구는 고품질 데이터 확보가 어려운 소수 언어나 복잡한 레이아웃의 OCR 성능을 합성 데이터만으로도 상용 수준까지 끌어올릴 수 있음을 증명했습니다. 특히 속도와 정확도를 동시에 잡은 모델을 오픈소스로 공개함으로써 문서 자동화 및 RAG 시스템의 전처리 단계에서 큰 비용 절감 효과를 가져올 것으로 기대됩니다.

섹션별 상세

실제 데이터 주석 작업의 비용과 소음 문제를 해결하기 위해 픽셀 단위의 정확한 정답을 포함하는 합성 데이터 생성 파이프라인을 구축했습니다. mOSCAR 웹 코퍼스에서 추출한 텍스트와 1,000여 개의 오픈소스 폰트를 결합하여 단어, 라인, 단락 단위의 바운딩 박스와 읽기 순서 정보를 자동으로 생성합니다. 이를 통해 수작업으로는 불가능한 1,200만 개 규모의 다국어 학습 데이터셋을 확보했습니다.

Nemotron OCR v2의 허깅페이스 스페이스 데모 화면으로, 텍스트 영역 검출과 추출 결과를 보여줍니다. — Screenshot모델이 실제 문서 이미지에서 텍스트 영역을 어떻게 감지하고(왼쪽), 이를 텍스트로 변환하는지(오른쪽) 시각적으로 보여줍니다. 레이아웃 보존 및 텍스트 추출의 정확도를 직접 확인할 수 있는 인터페이스를 제시합니다.

다양한 언어와 레이아웃 유형에 걸친 주석 처리된 합성 데이터 예시 모음입니다. — Infographic일본어, 한국어, 중국어 등 다양한 언어와 세로 쓰기, 표, 슬라이드 등 복잡한 레이아웃에 대한 합성 데이터 생성 능력을 보여줍니다. 파이프라인이 생성하는 데이터의 다양성과 정교함을 증명합니다.

다국어 환경의 특수성을 반영하여 한자나 가나처럼 띄어쓰기가 없는 언어를 위해 라인 단위 인식 방식을 도입했습니다. 기존의 단어 단위 인식은 한국어, 중국어, 일본어에서 경계 구분이 모호해 성능이 저하되는 문제가 있었으나, 라인 단위로 처리함으로써 별도의 세그멘테이션 단계 없이도 자연스러운 인식이 가능해졌습니다. 이는 비영어권 언어의 NED 점수를 기존 0.56~0.92 수준에서 0.035~0.069 범위로 대폭 개선하는 결과로 이어졌습니다.

단순 텍스트 인식을 넘어 문서의 논리적 구조를 파악하기 위해 관계 모델(Relational Model)을 아키텍처에 통합했습니다. 합성 데이터 생성 시 단어-라인-단락 간의 계층 구조와 읽기 순서 그래프를 함께 생성하여 모델이 다단 레이아웃이나 복잡한 표 구조에서도 올바른 순서로 텍스트를 추출하도록 학습시켰습니다. 이 방식은 HierText 데이터셋의 구조적 주석 방식에서 영감을 얻어 구현되었습니다.

영어 단락 레이아웃에 읽기 순서 주석이 포함된 이미지입니다. — Diagram단락 경계(점선), 라인 그룹화(색상 영역), 그리고 라인 간의 읽기 순서(화살표)를 시각화하여 모델이 학습하는 계층적 관계 데이터를 설명합니다. 이는 관계 모델이 문서 구조를 이해하는 핵심 근거가 됩니다.

추론 속도 최적화를 위해 검출(Detection)과 인식(Recognition)이 특징 맵을 공유하는 FOTS(Fast Oriented Text Spotting) 설계를 채택했습니다. RegNetX-8GF 백본이 이미지를 한 번만 처리하면 그 결과물을 인식기와 관계 모델이 재사용하므로 중복 계산이 제거됩니다. 그 결과 A100 GPU 기준 초당 34.7페이지의 처리량을 기록하며, 이는 기존 PaddleOCR v5 대비 약 28배 빠른 속도입니다.

실무 Takeaway

한국어, 일본어 등 띄어쓰기가 불분명한 언어의 OCR 성능을 높이려면 단어 단위가 아닌 라인 단위 인식 모델을 설계하고 학습시켜야 한다.
고품질 주석 데이터가 부족한 다국어 OCR 프로젝트에서 mOSCAR와 같은 웹 코퍼스와 오픈소스 폰트를 활용한 합성 데이터 생성은 비용 효율적인 대안이 된다.
실시간 처리가 필요한 프로덕션 환경에서는 검출기와 인식기가 백본 특징을 공유하는 아키텍처를 선택하여 추론 지연 시간을 최소화할 수 있다.

언급된 리소스

문서nvidia/nemotron-ocr-v2 (Model)

문서nvidia/OCR-Synthetic-Multilingual-v1 (Dataset)

DemoNemotron OCR v2 Demo

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

배경

OCR(광학 문자 인식)의 기본 개념, Transformer 아키텍처에 대한 이해, 데이터 증강(Augmentation) 및 합성 데이터 생성 기법

대상 독자

다국어 문서 처리 시스템을 구축하는 AI 엔지니어 및 MLOps 전문가

의미 / 영향

섹션별 상세

실무 Takeaway

한국어, 일본어 등 띄어쓰기가 불분명한 언어의 OCR 성능을 높이려면 단어 단위가 아닌 라인 단위 인식 모델을 설계하고 학습시켜야 한다.
고품질 주석 데이터가 부족한 다국어 OCR 프로젝트에서 mOSCAR와 같은 웹 코퍼스와 오픈소스 폰트를 활용한 합성 데이터 생성은 비용 효율적인 대안이 된다.
실시간 처리가 필요한 프로덕션 환경에서는 검출기와 인식기가 백본 특징을 공유하는 아키텍처를 선택하여 추론 지연 시간을 최소화할 수 있다.

언급된 리소스

문서nvidia/nemotron-ocr-v2 (Model)

문서nvidia/OCR-Synthetic-Multilingual-v1 (Dataset)

DemoNemotron OCR v2 Demo

합성 데이터를 활용한 고성능 다국어 OCR 모델 구축 가이드

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

합성 데이터를 활용한 고성능 다국어 OCR 모델 구축 가이드

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드