핵심 요약
정부 서식이나 영수증 같은 복잡한 문서에서 데이터를 정확히 뽑아내는 것은 기업 자동화의 핵심입니다. 하지만 기존 벤치마크는 고정된 양식만 다루어 모델의 실제 범용성을 평가하기 어려웠습니다. 이 논문은 1,700개 이상의 고유한 양식을 자동으로 생성해 소형 모델이 어디서 실패하는지 정확히 진단하고 해결책을 제시합니다.
왜 중요한가
정부 서식이나 영수증 같은 복잡한 문서에서 데이터를 정확히 뽑아내는 것은 기업 자동화의 핵심입니다. 하지만 기존 벤치마크는 고정된 양식만 다루어 모델의 실제 범용성을 평가하기 어려웠습니다. 이 논문은 1,700개 이상의 고유한 양식을 자동으로 생성해 소형 모델이 어디서 실패하는지 정확히 진단하고 해결책을 제시합니다.
핵심 기여
Reverse Annotation 파이프라인 개발
PDF 템플릿에 가상 데이터를 채워 넣고 LLM으로 스키마를 역추출하여 98.5% 정확도의 정답지를 자동 생성하는 기법을 통해 데이터 라벨링 비용을 획기적으로 줄였다.
VAREX 멀티모달 벤치마크 구축
1,771개의 고유 스키마와 21,084개 필드를 포함한 대규모 데이터셋을 공개하여 모델의 구조적 이해도를 정밀하게 측정할 수 있는 환경을 마련했다.
소형 모델의 주요 실패 모드 규명
4B 이하 모델에서 발생하는 'Schema Echo' 현상을 발견하고, 이것이 추출 능력 부족이 아닌 지시 이행 능력의 한계임을 밝혀냈다.
입력 모달리티의 영향력 입증
단순 텍스트보다 레이아웃을 보존한 Spatial Text가 이미지 정보보다 추출 정확도 향상에 더 크게 기여(+3~18%p)함을 확인했다.
핵심 아이디어 이해하기
기존의 문서 이해 모델은 이미지나 텍스트를 입력받아 특정 필드 값을 찾는 방식으로 학습된다. 하지만 실제 비즈니스 환경에서는 문서 양식이 수만 가지이며, 모델이 단순히 값을 찾는 것을 넘어 JSON 같은 복잡한 구조로 출력하는 능력이 필수적이다. 특히 4B 이하의 소형 모델은 연산 자원이 제한되어 있어 복잡한 출력 구조를 유지하면서 정확한 값을 매핑하는 데 어려움을 겪는다.
VAREX는 'Reverse Annotation'이라는 독창적인 방식을 사용한다. 먼저 빈 PDF 양식에 식별 가능한 임시 값을 채운 뒤, 모델이 이 구조를 분석해 JSON 스키마를 만들게 한다. 이후 실제와 유사한 가상 데이터를 주입하여 정답지를 만든다. 이 과정은 사람이 일일이 라벨링할 때 발생하는 오류를 줄이고, 모델이 스키마의 복잡성에 어떻게 반응하는지 정밀하게 측정할 수 있게 한다.
연구 결과, 소형 모델의 가장 큰 문제는 '추출 능력' 자체가 아니라 '출력 형식 준수'였다. 모델이 입력받은 스키마 정의를 그대로 복사해버리는 'Schema Echo' 현상이 성능 저하의 주범임을 밝혀냈다. 이는 모델의 크기를 키우지 않더라도 특정 태스크에 맞춘 Fine-tuning만으로도 지시 이행 능력을 개선해 성능을 비약적으로 높일 수 있음을 시사한다.
방법론
Reverse Annotation 파이프라인은 4단계로 구성된다. 1단계에서는 3,300개의 실제 정부 서식 PDF를 수집하고 각 필드에 고유 식별자(TXT_001 등)를 채운다. 2단계에서는 Mistral-Small-Instruct-24B 모델을 사용하여 문서의 레이아웃과 라벨을 분석하고, 중첩된 객체나 배열 구조를 포함한 JSON 스키마를 생성한다.
3단계 'Data Reskinning'에서는 Faker 라이브러리와 LLM을 활용해 이름, 주소 등 실제와 유사한 데이터를 생성하여 임시 식별자를 대체한다. 이때 각 값은 PyMuPDF를 통해 정확한 좌표의 PDF 위젯에 직접 쓰여지므로, 이미지에서 텍스트를 읽어올 필요 없이 100% 정확한 정답(Ground Truth)을 확보할 수 있다.
마지막 4단계에서는 동일한 문서를 네 가지 모달리티로 내보낸다. 일반 텍스트(Plain Text), 공백으로 열 정렬을 맞춘 공간 텍스트(Spatial Text), 문서 이미지(Image), 그리고 텍스트와 이미지를 결합한 형태(S+V)이다. 이를 통해 모델이 시각적 정보와 구조적 텍스트 정보 중 무엇에 더 의존하는지 체계적으로 비교 분석한다.
주요 결과
20개의 모델을 평가한 결과, Gemini 2.5 Pro가 98.0%의 EM(Exact Match)으로 최고 성능을 기록했다. 주목할 점은 Qwen3-VL 8B 모델이 96.6%를 기록하며 훨씬 거대한 Llama 4 Maverick(17B)이나 GPT-4o(94.8%)를 앞질렀다는 것이다. 이는 모델의 파라미터 규모보다 문서 추출 특화 설계가 더 중요할 수 있음을 보여준다.
4B 이하 소형 모델에서는 성능 차이가 극명하게 나타났다. 특히 2B 모델인 NuExtract 2.0은 추출 특화 Fine-tuning 덕분에 90.8%의 높은 정확도를 보인 반면, 기본 모델인 Qwen2-VL 2B는 9.7%에 그쳤다. 이러한 저조한 성적의 원인은 대부분 'Schema Echo'로, 스키마에 정의된 ref 구조를 만났을 때 값을 채우지 못하고 정의부만 출력하는 오류가 지배적이었다.
입력 모달리티 분석에서는 일반 텍스트(P)에서 공간 텍스트(S)로 전환할 때 모든 모델에서 3~18%p의 성능 향상이 관찰되었다. 이는 모델이 문서의 시각적 이미지(V)를 직접 처리하는 것보다, 텍스트의 상대적 위치 관계를 보존한 텍스트 입력을 처리할 때 구조 파악을 더 잘한다는 것을 의미한다.
실무 활용
온디바이스(On-device) 환경이나 비용 효율적인 문서 자동화 시스템 구축 시 소형 모델의 한계와 개선 방향을 명확히 제시한다. 특히 레이아웃 보존 텍스트(Spatial Text) 활용이 성능 향상의 핵심임을 시사한다.
- 정부 서식 및 공공 문서의 자동 데이터 입력 시스템 구축
- 모바일 기기 내 영수증 및 송장 정보 추출(OCR 대체 및 구조화)
- 대규모 문서 아카이브의 JSON 스키마 기반 자동 인덱싱
- 소형 언어 모델의 지시 이행(Instruction Following) 능력 평가 및 강화 학습
기술 상세
VAREX는 스키마 구조에 따라 Flat(중첩 없음), Nested(객체 중첩), Table(객체 배열)의 세 가지 카테고리로 문서를 분류한다. 실험 결과 Table 구조가 모델 간 성능 변별력이 가장 높았으며(93.5%~97.7%), 이는 모델이 행과 열의 관계를 파악하는 능력을 정밀하게 측정함을 보여준다.
평가 지표로는 Exact Match(EM)를 기본으로 하되, 미세한 포맷 차이를 허용하는 ANLS(Average Normalized Levenshtein Similarity)를 병행 사용한다. 배열 필드의 경우 순서에 상관없이 최적의 매칭을 찾는 Hungarian Algorithm을 적용하여 모델이 읽기 순서 차이로 인해 불이익을 받지 않도록 설계했다.
소형 모델의 실패 원인인 'Schema Echo'는 JSON Schema의 $defs 키워드에 의해 유발됨이 확인되었다. 이를 해결하기 위해 스키마를 인라이닝(Inlining) 처리하면 Qwen3-VL 2B의 성능이 27.4%에서 91.8%로 급등하는 현상을 발견했다. 이는 소형 모델의 추론 능력이 부족한 것이 아니라, 복잡한 스키마 참조 구조를 해석하는 지시 이행 단계에서 병목이 발생함을 기술적으로 증명한 것이다.
한계점
LLM이 생성한 스키마를 사용하므로 LLM이 이해하기 어려운 아주 복잡한 구조는 벤치마크에 덜 포함되었을 가능성이 있다. 또한 모든 문서가 단일 페이지의 영어 정부 서식으로 한정되어 있어 수기 문서나 다국어 문서에 대한 평가는 포함되지 않았다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료