TL;DR
현재 Doc-VQA 평가는 주로 최종 정답의 정확도에 집중하고 증거의 타당성은 간과된다. CiteVQA는 답변의 정확성과 함께 pdf 내 특정 위치의 요소 수준 바운딩 박스 증거를 제시하도록 요구하여, 모델이 올바른 위치의 증거에 근거해 답을 도출했는지 검증한다. 711개의 다문서 PDF에서 1,897개의 질문을 통해 긴 문서에서도 신뢰 가능한 해석 경로를 평가하는 체계를 제공한다.
왜 중요한가
현재 Doc-VQA 평가는 주로 최종 정답의 정확도에 집중하고 증거의 타당성은 간과된다. CiteVQA는 답변의 정확성과 함께 pdf 내 특정 위치의 요소 수준 바운딩 박스 증거를 제시하도록 요구하여, 모델이 올바른 위치의 증거에 근거해 답을 도출했는지 검증한다. 711개의 다문서 PDF에서 1,897개의 질문을 통해 긴 문서에서도 신뢰 가능한 해석 경로를 평가하는 체계를 제공한다.
핵심 기여
벤치마크 및 추적성 메트릭 도입
SAA(Strict Attributed Accuracy), Recall, Relevance, Ans를 핵심 지표로 삼아 답변과 증거의 연계 및 신뢰성을 함께 평가하는 프레임워크를 제시한다.
대규모 자동 주석 파이프라인 구축
711개 문서, 1,897개 질문으로 구성된 고품질 데이터를 자동으로 생성하고, 실험적 검증을 거쳐 전문가 검토를 통해 증거 바운딩 박스를 확보한다.
Attribution Hallucination 현상 발견
답변은 정답인데 증거 위치가 잘못될 수 있는 현상을 실증적으로 보여주고, 종료적으로 SAA가 크게 감소하는 문제를 지적한다.
다-domain, 장문서에 대한 데이터셋 구성
7개 도메인, 평균 40.6페이지의 장문서 형식으로 구성되어 실제 세계의 난이도와 문서 구조를 반영한다.
정교한 증거 중심 평가 설계
페이지 수준의 재현성에서 요소 수준의 바운딩 박스로 확장된 평가 체계를 통해 문서 내 증거의 정확한 매핑을 검증한다.
핵심 아이디어 이해하기
문제 정의: 긴 문서에서 정답을 도출하는 과정에서 텍스트와 시각적 요소 간의 연결 고리를 명확히 확인해야 한다. 기존 Doc-VQA는 최종 답에 초점을 맞추고 증거의 위치를 검증하지 않는다. 해결 원리: 바운딩 박스 단위의 증거를 정답과 함께 요구하고, 다문서 간 연결을 통해 증거 체인을 구성하며, 자동화된 파이프라인과 전문가 검증으로 스케일링한다. 기대 효과: 증거의 위치와 질을 함께 최적화하면 신뢰성 높은 문서 이해가 가능해지며, multi-doc 상황에서도 증거의 적합성과 재현성을 보장할 수 있다.
방법론
전체 접근은 네 단계로 구성된다. 1) Multi-Document Linking: 유사도 기반 후보 문서를 연결하고 섹션 간 매칭으로 크로스-도큐먼트 연계를 생성한다. 2) Evidence Package Extraction: MinerU를 이용해 페이지, 바운딩 박스, OCR 내용을 수집하고, 서로 다른 페이지/문서에 흩어진 증거를 연결한다. 3) QA Construction: 실제 도메인 QA를 반영하는 템플릿을 바탕으로 QA 쌍을 자동으로 생성한다. 4) Quality Control: 증거의 타당성 확인과 Crucial Evidence 식별을 위한 ablation 절차를 포함해 데이터 품질을 보장한다.
관련 Figure

다문서 연결, 증거 패키지 추출, QA 구성, 품질 관리의 흐름을 한눈에 보여주며, 방법론의 핵심 아이디어를 직관적으로 확인 가능하다.
CiteVQA 파이프라인의 4단계 다이어그램
주요 결과
주요 실험은 20개 모듈형 MLLM을 대상으로 수행되었다. 데이터셋 구성: 711문서, 평균 40.6페이지, 1,897개 질문(52.0% 단일문서, 25.7% 1개 골드 문서 다중문서, 22.3% 다중 골드). 증거 요소 평균 2.57개이며, 텍스트가 70.12%, 표 21.99%, 이미지 7.04%, 방정식 0.84%를 차지한다. 평가 지표: SAA는 Ans가 4 이상이고 Rel/Rec가 조건을 만족하는 경우에만 1점; Overall SAA는 Gemini-3.1-Pro-Preview가 76.0으로 최고, 오픈소스 모형은 22.5에 그친다. 보고서는 Attribution Hallucination 현상을 강조한다. 다문서 시나리오에서는 Recall이 크게 떨어지며 모델 간 큰 격차가 존재한다. 데이터와 모델의 상세 수치는 논문에 제시된 표를 참조한다.
관련 Figure

도메인별 및 모델별 성능 차트를 통해 SAA와 관련 지표의 차이를 시각화한다. 연구 결과의 구체적 수치를 직관적으로 파악하는 데 기여한다.
데이터셋 통계 차트 및 모델 성능 개요

데이터의 도메인 분포와 문서 길이 특성을 요약하며, 벤치마크의 현실성 및 다양성을 뒷받침한다.
도메인 분포 및 페이지 수 분포를 담은 원형 도표/바 차트
실무 활용
실무적으로는 문서 지능 시스템의 신뢰성과 해석 가능성을 높이기 위해 답변과 함께 근거 증거를 검증하는 벤치마크가 필요하다는 결론을 제시한다.
- 법령/계약서 분석에서 특정 조항의 근거 문서 위치를 함께 제시해야 하는 경우
- 의료/재무 분야에서 증거 기반 의사결정에 필요한 원문 근거의 명확한 탐색
- 대규모 문서 탐색 시스템의 증거 추적성 강화
코드 공개 여부: 공개
코드 저장소 보기키워드
추가 이미지 분석

첫 번째 이미지는 데이터셋 예시와 증거 귀속의 핵심 아이디어(필수 증거 위치)와 SAA를 함께 보여준다. 논문의 데이터 구성과 평가 흐름을 시각적으로 보조한다.
Dataset Example와 N Necessary Evidence를 시각적으로 요약한 도식
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.