핵심 요약
실제 웹 환경은 텍스트뿐만 아니라 이미지, 비디오, 오디오 등 다양한 형태의 정보가 섞여 있고 서로 충돌하는 정보도 많다. 이 논문은 AI 에이전트가 이러한 복잡한 현실 세계의 검색 환경에서 얼마나 잘 작동하는지 측정하는 새로운 기준을 제시하며, 현재 기술이 인간에 비해 검색 효율성과 멀티모달 추론 능력이 크게 부족함을 밝혀냈다.
왜 중요한가
실제 웹 환경은 텍스트뿐만 아니라 이미지, 비디오, 오디오 등 다양한 형태의 정보가 섞여 있고 서로 충돌하는 정보도 많다. 이 논문은 AI 에이전트가 이러한 복잡한 현실 세계의 검색 환경에서 얼마나 잘 작동하는지 측정하는 새로운 기준을 제시하며, 현재 기술이 인간에 비해 검색 효율성과 멀티모달 추론 능력이 크게 부족함을 밝혀냈다.
핵심 기여
MERRIN 벤치마크 구축
텍스트, 이미지, 비디오, 오디오를 포함하는 162개의 고난도 질문으로 구성된 인간 주석 기반 벤치마크를 설계했다. 명시적인 모달리티 힌트 없이 자연어 쿼리만으로 필요한 정보를 스스로 판단하여 검색하도록 유도한다.
멀티모달 검색 에이전트 성능 분석
GPT-5.4, Gemini 3.1, Qwen3 등 10개의 주요 모델을 대상으로 검색 성능을 평가했다. 가장 뛰어난 에이전트도 40.1%의 정확도에 그쳐 현재 AI의 한계를 명확히 드러냈다.
에이전트의 주요 실패 모드 식별
에이전트가 텍스트 정보에 과도하게 의존하는 경향(Bias Toward Text Modality)과 노이즈가 많은 환경에서 불필요한 검색을 반복하는 과잉 탐색(Over-Exploration) 문제를 발견했다.
검색 vs 추론 병목 현상 규명
완벽한 증거(Gold Evidence)를 제공하더라도 성능 향상이 7.6%에 불과함을 확인했다. 이는 검색 효율성보다 검색된 멀티모달 정보를 통합하여 결론을 도출하는 추론 능력이 더 큰 병목임을 시사한다.
핵심 아이디어 이해하기
기존의 멀티모달 벤치마크는 '이미지 속의 글자를 읽어라'와 같이 어떤 매체를 봐야 할지 힌트를 주거나, 정제된 데이터셋 내에서만 작동하는 한계가 있었다. 하지만 실제 사용자는 '리처드 파인만이 칠판에 적은 첫 번째 방정식의 발명가는?'처럼 어떤 매체(비디오, 텍스트 등)를 찾아야 할지 명시하지 않은 채 질문을 던진다.
이 논문은 이러한 현실적인 검색 시나리오를 모사하기 위해, 에이전트가 스스로 질문에 필요한 모달리티를 판단하고(Modality Identification), 웹의 수많은 노이즈 속에서 핵심 증거를 추출하며(Evidence Retrieval), 여러 단계의 논리적 연결을 수행하도록(Multi-hop Reasoning) 설계되었다.
실험 결과, 최신 LLM들은 텍스트 검색에는 능숙하지만 비디오나 오디오 속의 세부 정보를 파악하는 데 어려움을 겪으며, 특히 관련 없어 보이는 정보에 쉽게 현혹되어 엉뚱한 결론을 내리는 취약성을 보였다. 이는 단순한 정보 접근성 확대를 넘어, 비정형 멀티모달 데이터 간의 논리적 정합성을 판단하는 고차원적 추론 엔진의 필요성을 강조한다.
관련 Figure

에이전트가 올바른 비디오를 찾더라도 엉뚱한 타임스탬프를 참조하거나(Reasoning Error), 비주얼 정보가 필요한데 텍스트에만 의존하는(Modality Error) 등의 구체적인 한계를 시각화하여 벤치마크의 필요성을 설명한다.
MERRIN 벤치마크의 개요와 에이전트의 주요 실패 사례(추론 오류, 모달리티 오류, 검색 오류)를 보여주는 다이어그램이다.
방법론
MERRIN은 162개의 질문으로 구성되며, 각 질문은 텍스트, 이미지, 비디오, 테이블 중 최소 하나 이상의 비텍스트 증거를 필요로 한다. 데이터 수집 과정에서 텍스트만으로는 답을 찾을 수 없도록 'Adversarial Search Pass'를 거쳐 검증했다. [질문을 하위 질문으로 분해] → [텍스트 전용 검색 엔진으로 검색 시도] → [답이 나오지 않는 질문만 선별] → [비텍스트 매체 필수성 확보] 과정을 통해 벤치마크의 난이도를 유지한다.
에이전트 평가는 세 가지 설정으로 진행된다. 'No Search'는 모델의 내부 지식만 사용하고, 'Native Search'는 모델 내장 검색 도구를 활용하며, 'Agentic Multimodal Search'는 smolagents 프레임워크를 통해 비디오 및 웹페이지 분석 전용 도구를 장착한 상태로 수행된다. [사용자 쿼리 입력] → [에이전트의 도구 선택 및 검색 실행] → [멀티모달 컨텐츠 분석] → [최종 답변 생성] 순으로 동작하며, LLM-as-a-judge 방식을 통해 정답 여부를 판정한다.
관련 Figure

이미지(110개), 텍스트(96개), 비디오(88개) 등 다양한 매체가 균형 있게 포함되어 있으며, 비텍스트 정보가 정답의 직접적인 소스이거나 추론 과정의 핵심 연결 고리로 작동함을 보여준다.
MERRIN 데이터셋의 소스 유형 분포와 질문의 역할을 나타내는 차트이다.
주요 결과
평가 대상인 10개 모델의 평균 정확도는 22.3%로 매우 낮게 나타났다. 가장 우수한 성능을 보인 Gemini 3.1 Pro(Agentic 설정)도 40.1%에 머물렀다. 특히 오픈 웨이트 모델인 Qwen3 시리즈는 검색 도구를 활용하더라도 성능 향상 폭이 폐쇄형 모델에 비해 현저히 낮았다.
인간과의 비교 실험에서 인간은 71.4%의 정확도를 기록하며 에이전트를 압도했다. 인간은 에이전트보다 약 3배 적은 검색 횟수와 페이지 방문으로도 더 정확한 정보를 찾아냈으며, 이는 AI 에이전트가 정보의 우선순위를 정하고 관련성을 판단하는 '소스 선택(Source Selection)' 능력에서 큰 결함이 있음을 보여준다. 또한, 에이전트는 검색 시간이 길어져도 성능이 정체되는 반면, 인간은 시간을 더 투자할수록 정확도가 59.2%에서 71.4%로 크게 향상되는 차이를 보였다.
관련 Figure

비디오 도구를 추가했을 때 평균 5.7%의 성능 향상이 나타나며, 이는 에이전트의 모달리티 접근성 확대가 전체 검색 성공률에 직접적인 영향을 미침을 증명한다.
비디오 처리 도구 추가 여부에 따른 Gemini 모델들의 성능 변화를 보여주는 그래프이다.

인간은 에이전트보다 훨씬 적은 검색으로도 정답 소스를 정확히 찾아내는 높은 정밀도(Precision)를 보이지만, 에이전트는 무분별한 검색으로 인해 재현율(Recall)은 높으나 정밀도가 극히 낮음을 보여준다.
인간과 에이전트의 검색 노력(검색 횟수, 방문 횟수) 및 정답 소스 URL 일치도를 비교한 그래프이다.
기술 상세
MERRIN은 'No Explicit Modality Cues' 원칙을 고수하여 에이전트의 자율적인 판단력을 시험한다. 아키텍처 측면에서 Agentic Multimodal Search 설정은 'visit_webpage'(Gemini-3-Flash 기반 웹 이해)와 'watch_video'(YouTube 분석) 도구를 포함하여 모달리티 커버리지를 확장했다.
실패 분석 결과, 에이전트가 검색한 증거의 87.7%가 텍스트에 편중되어 있어 실제 데이터셋 분포(텍스트 31.4%)와 큰 괴리를 보였다. 이는 모델들이 시각/청각 정보보다 텍스트 정보를 처리하는 데 훨씬 더 높은 선호도와 편향을 가지고 있음을 입증한다. 또한, 멀티스텝 검색 과정에서 첫 번째 단계의 오류가 최종 답변까지 전파되는 'Error Propagation' 현상이 빈번하게 발생하며, 이는 초기 증거 식별의 정확도가 전체 시스템 성능의 핵심임을 시사한다.
한계점
이 벤치마크는 Google Search를 기본 엔진으로 사용하므로 검색 엔진 자체의 랭킹 알고리즘 편향이 결과에 영향을 줄 수 있다. 또한 162개라는 표본 크기는 정밀한 진단에는 적합하나 대규모 통계적 유의성을 확보하기에는 제한적일 수 있으며, 웹 컨텐츠의 동적인 특성상 URL이 사라지거나 내용이 변경될 경우 재현성에 문제가 생길 수 있다.
실무 활용
웹 검색 기반의 AI 비서나 자동화된 리서치 에이전트를 개발할 때, 멀티모달 정보 통합 능력을 검증하는 엄격한 테스트베드로 활용 가능하다.
- 비디오 강의나 팟캐스트 내용을 포함한 복합 정보 검색 서비스의 성능 측정
- 검색 증강 생성(RAG) 시스템에서 텍스트 외 미디어 데이터의 활용 효율성 평가
- AI 에이전트의 과잉 탐색 및 도구 오용 문제를 해결하기 위한 학습 데이터 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.