핵심 요약
멀티모달 에이전트가 복잡한 문서 뭉치에서 정보를 찾는 능력을 평가하는 새로운 벤치마크 MADQA를 제안한다. 현재 AI는 정답을 맞히는 능력은 뛰어나지만, 인간처럼 전략적으로 검색 경로를 설계하지 못하고 무차별 대입 방식에 의존하고 있음을 밝혀냈다.
왜 중요한가
멀티모달 에이전트가 복잡한 문서 뭉치에서 정보를 찾는 능력을 평가하는 새로운 벤치마크 MADQA를 제안한다. 현재 AI는 정답을 맞히는 능력은 뛰어나지만, 인간처럼 전략적으로 검색 경로를 설계하지 못하고 무차별 대입 방식에 의존하고 있음을 밝혀냈다.
핵심 기여
MADQA 벤치마크 구축
800개의 다양한 PDF 문서와 2,250개의 인간 작성 질문으로 구성된 멀티모달 에이전트 전용 데이터셋을 공개하여 복잡한 문서 워크플로 평가 기반을 마련했다.
정확도-노력 트레이드오프 평가 도입
단순 정답률 외에 정답 도달까지의 검색 횟수를 측정하는 Kuiper 통계량을 도입하여 에이전트의 전략적 효율성을 정량화했다.
인간과 에이전트의 역량 격차 규명
최고의 에이전트가 정확도 면에서는 인간과 대등해졌으나, 검색 효율성에서는 여전히 큰 격차가 존재하며 비효율적인 루프에 빠지는 경향이 있음을 증명했다.
고난도 Sentinel Pool 구성
현재 어떤 모델도 풀지 못하는 20%의 고난도 문항을 별도로 관리하여 벤치마크의 장기적인 변별력을 확보했다.
핵심 아이디어 이해하기
기존의 문서 Q&A는 주로 단일 문서나 텍스트 위주의 검색(RAG)에 집중했다. 하지만 실제 업무 환경에서는 수백 개의 PDF 파일 사이를 오가며 정보를 조합해야 한다. 기존 방식은 관련 문서를 한 번에 다 불러오려 하지만, 이는 토큰 비용과 연산량 면에서 비효율적이다. 이 논문은 에이전트가 첫 번째 검색 결과에서 얻은 힌트를 바탕으로 다음 검색 쿼리를 수정하고, 불필요한 문서는 건너뛰는 '전략적 내비게이션' 능력을 갖췄는지 확인한다.
실험 결과, AI는 정답을 찾을 때까지 무작위로 검색을 반복하는 '확률적 검색' 경향이 강했다. 반면 인간은 첫 번째 쿼리에서 정답 문서를 찾을 확률이 훨씬 높았으며, 실패했을 때 전략을 빠르게 수정했다. 이는 AI가 딥러닝의 Embedding 유사도에 기반한 검색에는 능숙하지만, 인간처럼 문서 구조를 파악해 탐색 경로를 설계하는 고차원적 추론 능력은 부족함을 시사한다.
방법론
MADQA는 추출성, 멀티홉, 폐쇄형 세계, 근거 기반, 에이전트성, 시각적 요소라는 6가지 핵심 속성을 기준으로 설계됐다. 특히 '에이전트성' 속성은 단 한 번의 검색 쿼리로는 해결할 수 없는 구조를 강제하여 에이전트의 계획 능력을 시험한다.
데이터셋 분할에는 고전 검사 이론(CTT)을 적용했다. 각 문항에 대해 모델들의 평균 정답률을 입력으로 하여 난이도()를 계산하고, 모델 간 성능 차이를 가장 잘 드러내는 변별도()를 산출하여 테스트 세트를 구성했다. [모델 정답률 → 난이도/변별도 계산 → 최적 문항 선별 → 평가 신뢰도 향상]
성능 평가를 위해 Kuiper 통계량()을 사용한다. 각 질문에 대해 투입된 노력(검색 횟수 )과 결과(정답 여부 )를 입력값으로 사용한다. 노력 순으로 정렬된 데이터에서 모델의 평균 정확도와의 편차를 누적하여 합산하는 연산을 수행한다. 그 결과로 나오는 누적 편차 곡선의 최대값과 최소값의 차이가 최종 값이 된다. [검색 단계별 정확도 편차 계산 → 누적 합산 → 최대/최소 범위 측정 → 에이전트의 자원 배분 효율성 판단]
주요 결과
Gemini 3 Pro BM25 에이전트가 82.2%의 정확도를 기록하며 비에이전트 방식(78.6%)보다 우수한 성능을 보였다. 하지만 인간(82.2%)과 정확도는 비슷해도 검색 효율성을 나타내는 Kuiper 지수는 인간(14.6)보다 훨씬 높은 25.8을 기록하여 비효율적인 탐색을 반복함이 드러났다.
에러 분석 결과, 하위 모델은 검색 실패가 주된 원인이었으나, 상위 모델로 갈수록 문서를 찾고도 내용을 잘못 해석하는 이해 실패 비중이 높아졌다. 특히 Claude Sonnet 4.5는 검색 실패율이 4.0%로 매우 낮았지만 이해 실패율은 상대적으로 높게 나타났다.
멀티홉 질문에서 문서 간의 물리적 거리보다 의미적 거리(Semantic Distance)가 난이도에 더 큰 영향을 미쳤다. 의미적으로 유사한 문서 간의 연결은 72.4%의 정확도를 보였으나, 이질적인 문맥을 연결해야 하는 경우 정확도가 34.8%로 급감하여 의미적 불연속성이 에이전트의 주요 실패 요인임이 확인됐다.
기술 상세
MADQA는 13개 도메인의 800개 PDF를 포함하며, 58%의 질문이 시각적 요소(표, 레이아웃 등) 이해를 필수적으로 요구한다. 평가 지표로 Page F1과 Doc F1을 구분하여 사용하는데, Doc F1은 올바른 문서를 찾았는지를 보며 Page F1은 문서 내의 정확한 페이지까지 찾아냈는지(Last-mile navigation)를 정밀하게 측정한다.
에이전트의 '노력'을 측정하기 위해 도구 호출 횟수(Step counts)를 기본 단위로 설정했으며, 이는 토큰 사용량이나 실행 시간과도 높은 상관관계()를 보임을 확인했다. Recursive Language Models(RLM)과 같은 비제약적 구조는 이론적 유연성은 높으나, 실제 실험에서는 BM25 기반 에이전트보다 훨씬 많은 비용을 소모하면서도 성능 이득은 크지 않아 제약 조건이 있는 검색 도구 활용이 비용 효율적임이 나타났다.
한계점
영어권 및 미국 중심의 문서로 구성되어 있어 타 언어나 문화권의 문서 양식에는 결과가 전이되지 않을 수 있다. 또한 공개된 문서만을 사용했으므로 기업 내부의 특수한 보안 문서나 비공개 워크플로에 대한 평가는 포함되지 않았다.
실무 활용
기업용 문서 자동화 시스템 구축 시, 단순 RAG보다 반복적 계획이 가능한 에이전트 구조가 유리하다. 다만, AI가 무한 루프에 빠지거나 무차별 검색으로 비용을 낭비하지 않도록 검색 효율성을 모니터링하는 장치가 필수적이다.
- 금융 및 법률 분야의 수백 페이지 분량 보고서 간 교차 분석
- 멀티모달 RAG 시스템의 검색 전략 최적화 및 토큰 비용 관리
- 에이전트의 추론 경로 시각화 및 검색 쿼리 자동 수정 도구 개발
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.