핵심 요약
기존의 검색 증강 생성(RAG) 시스템은 텍스트 기반의 출처만 제공하여 복잡한 도표나 슬라이드 내의 구체적인 증거 위치를 찾기 어려웠습니다. 이 논문은 문서의 스크린샷에서 직접 증거를 찾아 바운딩 박스로 표시함으로써, 사용자가 AI의 답변 근거를 즉시 시각적으로 검증할 수 있게 합니다.
왜 중요한가
기존의 검색 증강 생성(RAG) 시스템은 텍스트 기반의 출처만 제공하여 복잡한 도표나 슬라이드 내의 구체적인 증거 위치를 찾기 어려웠습니다. 이 논문은 문서의 스크린샷에서 직접 증거를 찾아 바운딩 박스로 표시함으로써, 사용자가 AI의 답변 근거를 즉시 시각적으로 검증할 수 있게 합니다.
핵심 기여
Chain of Evidence (CoE) 프레임워크 제안
문서 파싱 과정 없이 스크린샷을 직접 처리하여 픽셀 좌표 기반의 바운딩 박스로 증거를 제시하는 리트리버 불가지론적(retriever-agnostic) 시각적 속성 부여 프레임워크이다.
Wiki-CoE 및 SlideVQA 벤치마크 구축
구조화된 웹 페이지 기반의 Wiki-CoE(70,418개 질문)와 복잡한 레이아웃의 슬라이드 기반 SlideVQA 데이터셋을 통해 시각적 증거 로컬라이제이션 성능을 엄밀히 평가한다.
Qwen3-VL 기반의 고성능 시각적 추론 구현
Fine-tuning된 Qwen3-VL-8B-Instruct 모델을 통해 텍스트 기반 베이스라인이 실패하는 복잡한 레이아웃에서도 강건한 성능을 유지하며 Wiki-CoE에서 80.4%의 로컬라이제이션 정확도를 기록했다.
관련 Figure

2WikiMultiHopQA 데이터를 기반으로 Selenium을 이용해 웹 페이지를 캡처하고, 텍스트 매칭과 좌표 추출을 통해 픽셀 수준의 정답지를 생성하는 과정을 상세히 설명한다. 이 파이프라인을 통해 7만 개 이상의 고품질 시각적 질문 답변 쌍이 구축되었다.
Wiki-CoE 데이터셋 구축을 위한 시각적 어노테이션 파이프라인
핵심 아이디어 이해하기
기존의 Iterative RAG(iRAG)는 긴 문서를 텍스트로 변환하는 과정에서 표의 구조나 도표의 흐름 같은 시각적 의미 정보가 손실되는 문제를 겪습니다. 이는 Transformer 기반 모델이 텍스트 임베딩만으로는 문서의 공간적 맥락을 완전히 파악하기 어렵기 때문입니다.
CoE는 문서를 텍스트로 파싱하는 대신 '스크린샷' 자체를 입력으로 사용하는 Vision-Language Model(VLM)의 능력을 활용합니다. 이는 이미지 내의 픽셀 정보를 직접 처리하여 텍스트 간의 시각적 관계(예: 화살표로 연결된 순서도)를 보존한 채 추론을 수행할 수 있게 합니다.
결과적으로 모델은 답변을 생성할 때 단순히 텍스트를 인용하는 것이 아니라, 이미지 좌표계 상의 바운딩 박스를 출력하여 '증거의 사슬'을 시각적으로 구성합니다. 이를 통해 사용자는 수백 페이지의 문서 중 어느 부분의 어떤 데이터가 답변의 근거가 되었는지 즉각적으로 확인할 수 있습니다.
방법론
CoE는 다중 홉(multi-hop) 질문을 해결하기 위해 반복적인 시각적 추론 프로세스를 수행한다. 업스트림 리트리버가 제공한 상위 K개의 문서 스크린샷 후보군을 입력으로 받아, 각 단계마다 필요한 증거를 선택하고 해당 영역의 좌표를 추출한다.
핵심 메커니즘은 단일 자동 회귀(autoregressive) 패스 내에서 증거 체인을 생성하는 것이다. 모델은 [이미지 ID → 바운딩 박스 좌표 → 하위 질문/추론 사고] 순서로 토큰을 생성한다. 바운딩 박스 좌표 [x1, y1, x2, y2]는 이미지의 픽셀 좌표를 정규화한 값으로, 모델이 이미지 내 특정 영역에 Attention을 집중하여 정보를 추출했음을 의미한다.
학습 전략으로는 2단계 커리큘럼 학습(Curriculum Learning)을 채택했다. 1단계에서는 단일 이미지 내의 증거 로컬라이제이션 능력을 배양하고, 2단계에서는 상위 5개 후보 스크린샷에 대한 다중 홉 증거 체인 생성을 학습시킨다. 또한 공간 증강(Spatial Augmentation)과 해상도 변이(Resolution Variation) 기법을 적용하여 다양한 레이아웃과 폰트 크기에 대한 강건성을 확보했다.
관련 Figure

텍스트 기반 방식은 문서 수준의 인용만 제공하여 구체적 위치 파악이 어려운 반면, CoE는 스크린샷 위에 바운딩 박스를 그려 증거 체인을 직접 시각화함을 보여준다. 이는 사용자 검증 비용을 획기적으로 줄이는 핵심 차별점이다.
전통적인 텍스트 기반 RAG와 제안된 CoE 시각적 방법의 비교 다이어그램
주요 결과
Wiki-CoE 벤치마크에서 CoE-8B 모델은 82.3%의 답변 정확도(EM)와 80.4%의 로컬라이제이션 정확도(Loc-Acc)를 달성했다. 이는 강력한 제로샷 모델인 GPT-5(Loc-Acc 31.7%)나 Qwen3-VL-235B(Loc-Acc 7.4%)를 압도하는 수치로, 작업 특화 파인튜닝의 중요성을 입증했다.
복잡한 슬라이드 데이터셋인 SlideVQA에서도 CoE-8B는 61.0%의 Loc-Acc를 기록하며 텍스트 기반 베이스라인들이 레이아웃 정보 손실로 인해 실패하는 지점에서도 유의미한 성능을 보였다. 특히 다이어그램이 많은 슬라이드에서 텍스트 기반 모델 대비 28.5%p 높은 성능 차이를 보이며 시각적 추론의 필수성을 증명했다.
기술 상세
CoE 아키텍처는 Qwen3-VL-8B-Instruct를 백본으로 사용하며, 시각적 토큰과 텍스트 토큰을 통합된 컨텍스트 내에서 처리한다. 기존 iRAG 시스템이 텍스트 파싱(OCR/HTML parsing)에 의존하여 레이아웃 정보를 소실하는 것과 달리, CoE는 원본 렌더링을 보존한 스크린샷을 직접 입력으로 사용하여 공간적 의미론(Spatial Semantics)을 유지한다.
구현 측면에서 4-bit 양자화를 통해 메모리 사용량을 28GB에서 16GB로 43% 절감하면서도 성능 저하를 1% 미만으로 억제하여 일반 소비자용 GPU에서도 배포가 가능하도록 설계되었다. 또한 추론 시 각 홉(hop)에서 선택된 이미지 ID와 좌표를 JSON 형식으로 출력하도록 학습되어 시스템 통합 및 검증이 용이하다.
한계점
추론(Inference) 유형의 질문에서 문서 선택은 정확하나 바운딩 박스 생성 정확도가 떨어지는 경향이 있다. 이는 명시적으로 렌더링되지 않은 '암시적 논리'를 픽셀 단위로 시각화하는 데 현재 VLM이 여전히 한계를 가지고 있음을 시사한다.
실무 활용
금융, 법률, 의료와 같이 답변의 근거 확인이 필수적인 고신뢰 도메인에서 AI 답변의 투명성을 높이는 데 즉시 활용 가능합니다.
- 복잡한 재무 제표나 차트가 포함된 보고서에서 특정 수치의 근거를 시각적으로 확인
- 수백 페이지의 법률 문서나 매뉴얼에서 관련 조항의 위치를 바운딩 박스로 즉시 파악
- 프레젠테이션 슬라이드 내의 도표와 화살표 흐름을 분석하여 논리적 답변 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.