핵심 요약
기존 AI 연구 에이전트 평가는 실시간 웹 검색에 의존하여 결과가 매번 달라지는 재현성 문제가 있었다. 이 논문은 실제 사용자의 멀티모달 파일을 포함한 통제된 샌드박스 환경을 구축하여, 에이전트의 정보 검색과 보고서 작성 능력을 정밀하고 객관적으로 측정할 수 있는 벤치마크를 제공한다.
왜 중요한가
기존 AI 연구 에이전트 평가는 실시간 웹 검색에 의존하여 결과가 매번 달라지는 재현성 문제가 있었다. 이 논문은 실제 사용자의 멀티모달 파일을 포함한 통제된 샌드박스 환경을 구축하여, 에이전트의 정보 검색과 보고서 작성 능력을 정밀하고 객관적으로 측정할 수 있는 벤치마크를 제공한다.
관련 Figure

DeepResearch Bench나 DRBench 등 기존 벤치마크는 실시간 웹 검색이나 텍스트 전용 파일에 의존하는 반면, 본 연구는 멀티모달 파일 입력과 통제된 샌드박스 코퍼스를 결합하여 재현성과 현실성을 동시에 확보했음을 보여준다.
기존 벤치마크들과 DR3-Eval의 구조적 차이점을 비교한 다이어그램이다.
핵심 기여
DR3-Eval 벤치마크 제안
멀티모달 입력과 다중 파일 기반의 보고서 생성을 평가하는 현실적이고 재현 가능한 벤치마크를 구축했다. 100개의 독립적인 과업과 13개의 도메인을 아우르는 방대한 데이터를 포함한다.
샌드박스 기반 과업 구축 파이프라인
실제 웹의 복잡성을 모방하면서도 검증 가능한 정적 코퍼스를 생성하는 5단계 파이프라인을 도입했다. 이를 통해 신호 대비 소음 비율을 조절하며 에이전트의 강건성을 테스트할 수 있다.
다차원 평가 프레임워크 도입
Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, Depth Quality의 5가지 지표를 통해 에이전트의 성능을 다각도로 분석하며 인간의 판단과 높은 상관관계를 입증했다.
DR3-Agent 시스템 개발 및 분석
계층적 멀티 에이전트 구조를 가진 DR3-Agent를 개발하여 최신 LLM들의 성능을 진단했다. 실험 결과 현재 모델들이 정보 활용의 안정성 측면에서 한계가 있음을 밝혀냈다.
핵심 아이디어 이해하기
기존의 AI 평가 방식은 정답이 정해진 짧은 질문에 답하는 방식이었으나, 실제 연구는 불완전한 정보에서 의도를 파악하고 방대한 자료 속 소음을 걸러내는 과정이다. DR3-Eval은 이 과정을 모사하기 위해 '역방향 구성' 방식을 사용한다. 즉, 검증된 증거 문서에서 쿼리를 도출함으로써 모든 과업에 명확한 해결 경로가 존재하도록 설계했다.
에이전트는 사용자가 제공한 텍스트, 이미지, 영상 등 멀티모달 파일과 함께 수백 개의 웹 페이지가 섞인 샌드박스 코퍼스에 접근한다. 이때 단순히 검색(Retrieval)만 잘하는 것이 아니라, 수많은 방해 문서(Distractors) 사이에서 핵심 정보를 식별하고 이를 논리적인 보고서로 엮어내는 능력이 요구된다.
결과적으로 이 벤치마크는 에이전트가 긴 문맥 속에서 얼마나 정확하게 정보를 인출(Recall)하고, 인용(Citation)을 준수하며, 사실적 오류(Hallucination) 없이 깊이 있는 분석을 수행하는지 수치화한다. 이는 AI가 단순한 도구를 넘어 자율적인 연구 파트너로 진화하기 위한 필수적인 검증대 역할을 한다.
방법론
데이터 구축은 5단계로 진행된다. 1단계에서는 실제 사용자의 요구가 반영된 멀티모달 파일 세트 100개를 수집한다. 2단계에서는 Gemini 2.5 Pro를 활용해 핵심 경로를 가리키는 '신호 키워드'와 관련은 있지만 무관한 '소음 키워드'를 생성하는 확산-수렴 프로세스를 거친다. 3단계에서는 이 키워드들로 최대 100개의 웹 결과를 수집하여 정적인 연구 샌드박스를 구축한다.
4단계에서는 증거 문서와 신호 키워드를 통합하여 에이전트가 수행할 최종 쿼리를 합성한다. [증거 문서 + 키워드 → LLM 합성 → 최종 쿼리] 과정을 통해 쿼리가 반드시 샌드박스 내 정보로만 해결 가능하도록 보장한다. 5단계에서는 엄격한 품질 관리를 통해 단일한 해결 경로가 존재하지 않거나 외부 검색 엔진으로 즉시 답을 찾을 수 있는 과업을 제거한다.
평가 지표는 정보 검색과 보고서 생성의 두 차원으로 나뉜다. 정보 검색은 Information Recall(IR)과 Citation Coverage(CC)로 측정하며, 보고서 생성은 Factual Accuracy(FA), Instruction Following(IF), Depth Quality(DQ)로 평가한다. FA의 경우 [보고서 내 주장 + 출처 문서 → LLM 검증 → 일치 여부] 순으로 계산하여 모델이 근거에 기반해 서술했는지 확인한다.
관련 Figure

데이터 생성 단계의 확산-수렴 메커니즘과 DR3-Agent의 계층적 구조, 그리고 5가지 핵심 평가 지표가 어떻게 상호작용하는지 시각적으로 설명한다.
DR3-Eval의 데이터 구축, 에이전트 구조, 평가 프로토콜을 아우르는 전체 프레임워크 개요도이다.
주요 결과
실험 결과 Claude Sonnet 4가 가장 우수한 성능을 보였으나, 모든 모델이 샌드박스 코퍼스 크기가 커질수록 성능이 하락하는 경향을 보였다. 코퍼스 크기가 64k에서 512k로 증가함에 따라 정보 검색(IR)과 인용 범위(CC) 점수가 눈에 띄게 감소했는데, 이는 늘어난 소음 데이터 사이에서 유효한 정보를 찾는 데 어려움을 겪음을 의미한다.
특히 지시사항 준수(IF) 점수가 높다고 해서 반드시 사실 정확도(FA)가 높은 것은 아님을 발견했다. 일부 모델은 보고서의 형식은 완벽하게 갖추었으나 실제 내용은 근거 자료와 무관한 환각 정보를 포함하는 경우가 많았다. 오류 분석 결과, 대부분의 모델에서 환각(Hallucination)이 실패의 가장 큰 원인(65~77%)으로 나타났다.
샌드박스 환경과 실제 웹 검색 환경 간의 상관관계 분석에서는 두 환경의 성능 차이가 1점 미만으로 나타나, 구축된 샌드박스가 실제 웹의 난이도를 성공적으로 대체하고 있음을 입증했다. 또한 GPT-5.1을 활용한 자동 평가 점수는 인간 전문가의 평가와 0.89의 높은 일치도를 보였다.
관련 Figure

기술, 경제, 인문학 등 13개 세부 도메인에 걸친 균형 잡힌 데이터 구성을 보여주며, PDF, 이미지, 영상 등 다양한 멀티모달 형식이 포함되어 있음을 증명한다.
데이터셋의 도메인 분포, 파일 형식 분포, 과업당 사용자 파일 수 분포를 나타낸 차트이다.

대부분의 모델에서 환각(Hallucination)이 가장 큰 실패 원인임을 보여주며, 특히 Claude Sonnet 4와 Gemini 2.5 Pro조차도 60% 이상의 오류가 환각에서 기인함을 시사한다.
주요 LLM들의 오류 유형(검색 오류, 추론 오류, 환각 오류) 분포를 분석한 막대 그래프이다.
기술 상세
DR3-Agent는 계층적 멀티 에이전트 아키텍처를 채택했다. Main Agent는 전체적인 계획 수립과 추론을 담당하며, 하위 에이전트로 RAG Search와 File Reader를 둔다. RAG Search 에이전트는 ReAct 프레임워크를 사용하여 샌드박스 내에서 반복적인 검색과 쿼리 최적화를 수행하며, File Reader는 긴 텍스트 파일을 페이지 단위로 파싱하여 필요한 정보를 추출한다.
시스템은 텍스트 임베딩을 위해 OpenAI의 text-embedding-3-small을 사용하며, 벡터 데이터베이스를 기반으로 한 반복적 밀집 검색(Iterative Dense Retrieval) 메커니즘을 구현했다. 이는 기존의 단발성 검색보다 복잡한 증거 체인을 연결하는 데 유리하다. 또한 비디오 및 오디오 처리를 위해 Gemini 2.5 Pro를 보조 도구로 활용하여 멀티모달 컨텐츠의 내용을 텍스트 컨텍스트로 변환하여 통합한다.
평가 시에는 GPT-5.1을 주 평가 모델로 사용하며, 멀티모달 검증이 필요한 경우 Gemini 2.5 Pro가 보조 평가자로 참여한다. 모든 평가 프롬프트는 엄격한 3단계 판단 프로세스(핵심 의미 추출 → 보고서 검색 → 채점 규칙 적용)를 따르도록 설계되어 평가의 객관성을 높였다.
한계점
현재 벤치마크는 정적인 샌드박스를 사용하므로 실시간으로 변하는 웹의 동적인 특성을 완벽하게 반영하지는 못한다. 또한 보고서의 '깊이 품질(Depth Quality)' 평가는 여전히 LLM의 판단에 의존하고 있어, 모델 자체의 편향성(Model Bias)이 개입될 여지가 있음을 명시했다.
실무 활용
기업 내 문서 분석이나 전문 연구 분야에서 자율 에이전트를 도입하기 전 성능을 정밀하게 검증하는 도구로 활용 가능하다.
- 금융/의료 등 전문 도메인 특화 연구 에이전트의 신뢰성 및 환각 제어 성능 테스트
- 멀티모달 자료(차트, 영상)를 포함한 기업용 자동 보고서 생성 시스템의 품질 평가
- RAG 시스템 구축 시 방대한 소음 데이터에 대한 검색 알고리즘의 강건성 벤치마킹
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.