MERRIN: 노이즈가 많은 웹 환경에서의 멀티모달 증거 검색 및 추론 벤치마크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

실제 웹 환경은 텍스트뿐만 아니라 이미지, 비디오, 오디오 등 다양한 형태의 정보가 섞여 있고 서로 충돌하는 정보도 많다. 이 논문은 AI 에이전트가 이러한 복잡한 현실 세계의 검색 환경에서 얼마나 잘 작동하는지 측정하는 새로운 기준을 제시하며, 현재 기술이 인간에 비해 검색 효율성과 멀티모달 추론 능력이 크게 부족함을 밝혀냈다.

왜 중요한가

실제 웹 환경은 텍스트뿐만 아니라 이미지, 비디오, 오디오 등 다양한 형태의 정보가 섞여 있고 서로 충돌하는 정보도 많다. 이 논문은 AI 에이전트가 이러한 복잡한 현실 세계의 검색 환경에서 얼마나 잘 작동하는지 측정하는 새로운 기준을 제시하며, 현재 기술이 인간에 비해 검색 효율성과 멀티모달 추론 능력이 크게 부족함을 밝혀냈다.

핵심 기여

MERRIN 벤치마크 구축

텍스트, 이미지, 비디오, 오디오를 포함하는 162개의 고난도 질문으로 구성된 인간 주석 기반 벤치마크를 설계했다. 명시적인 모달리티 힌트 없이 자연어 쿼리만으로 필요한 정보를 스스로 판단하여 검색하도록 유도한다.

멀티모달 검색 에이전트 성능 분석

GPT-5.4, Gemini 3.1, Qwen3 등 10개의 주요 모델을 대상으로 검색 성능을 평가했다. 가장 뛰어난 에이전트도 40.1%의 정확도에 그쳐 현재 AI의 한계를 명확히 드러냈다.

에이전트의 주요 실패 모드 식별

에이전트가 텍스트 정보에 과도하게 의존하는 경향(Bias Toward Text Modality)과 노이즈가 많은 환경에서 불필요한 검색을 반복하는 과잉 탐색(Over-Exploration) 문제를 발견했다.

검색 vs 추론 병목 현상 규명

완벽한 증거(Gold Evidence)를 제공하더라도 성능 향상이 7.6%에 불과함을 확인했다. 이는 검색 효율성보다 검색된 멀티모달 정보를 통합하여 결론을 도출하는 추론 능력이 더 큰 병목임을 시사한다.

핵심 아이디어 이해하기

기존의 멀티모달 벤치마크는 '이미지 속의 글자를 읽어라'와 같이 어떤 매체를 봐야 할지 힌트를 주거나, 정제된 데이터셋 내에서만 작동하는 한계가 있었다. 하지만 실제 사용자는 '리처드 파인만이 칠판에 적은 첫 번째 방정식의 발명가는?'처럼 어떤 매체(비디오, 텍스트 등)를 찾아야 할지 명시하지 않은 채 질문을 던진다.

이 논문은 이러한 현실적인 검색 시나리오를 모사하기 위해, 에이전트가 스스로 질문에 필요한 모달리티를 판단하고(Modality Identification), 웹의 수많은 노이즈 속에서 핵심 증거를 추출하며(Evidence Retrieval), 여러 단계의 논리적 연결을 수행하도록(Multi-hop Reasoning) 설계되었다.

실험 결과, 최신 LLM들은 텍스트 검색에는 능숙하지만 비디오나 오디오 속의 세부 정보를 파악하는 데 어려움을 겪으며, 특히 관련 없어 보이는 정보에 쉽게 현혹되어 엉뚱한 결론을 내리는 취약성을 보였다. 이는 단순한 정보 접근성 확대를 넘어, 비정형 멀티모달 데이터 간의 논리적 정합성을 판단하는 고차원적 추론 엔진의 필요성을 강조한다.

방법론

MERRIN은 162개의 질문으로 구성되며, 각 질문은 텍스트, 이미지, 비디오, 테이블 중 최소 하나 이상의 비텍스트 증거를 필요로 한다. 데이터 수집 과정에서 텍스트만으로는 답을 찾을 수 없도록 'Adversarial Search Pass'를 거쳐 검증했다. [질문을 하위 질문으로 분해] → [텍스트 전용 검색 엔진으로 검색 시도] → [답이 나오지 않는 질문만 선별] → [비텍스트 매체 필수성 확보] 과정을 통해 벤치마크의 난이도를 유지한다.

에이전트 평가는 세 가지 설정으로 진행된다. 'No Search'는 모델의 내부 지식만 사용하고, 'Native Search'는 모델 내장 검색 도구를 활용하며, 'Agentic Multimodal Search'는 smolagents 프레임워크를 통해 비디오 및 웹페이지 분석 전용 도구를 장착한 상태로 수행된다. [사용자 쿼리 입력] → [에이전트의 도구 선택 및 검색 실행] → [멀티모달 컨텐츠 분석] → [최종 답변 생성] 순으로 동작하며, LLM-as-a-judge 방식을 통해 정답 여부를 판정한다.

주요 결과

평가 대상인 10개 모델의 평균 정확도는 22.3%로 매우 낮게 나타났다. 가장 우수한 성능을 보인 Gemini 3.1 Pro(Agentic 설정)도 40.1%에 머물렀다. 특히 오픈 웨이트 모델인 Qwen3 시리즈는 검색 도구를 활용하더라도 성능 향상 폭이 폐쇄형 모델에 비해 현저히 낮았다.

인간과의 비교 실험에서 인간은 71.4%의 정확도를 기록하며 에이전트를 압도했다. 인간은 에이전트보다 약 3배 적은 검색 횟수와 페이지 방문으로도 더 정확한 정보를 찾아냈으며, 이는 AI 에이전트가 정보의 우선순위를 정하고 관련성을 판단하는 '소스 선택(Source Selection)' 능력에서 큰 결함이 있음을 보여준다. 또한, 에이전트는 검색 시간이 길어져도 성능이 정체되는 반면, 인간은 시간을 더 투자할수록 정확도가 59.2%에서 71.4%로 크게 향상되는 차이를 보였다.

기술 상세

MERRIN은 'No Explicit Modality Cues' 원칙을 고수하여 에이전트의 자율적인 판단력을 시험한다. 아키텍처 측면에서 Agentic Multimodal Search 설정은 'visit_webpage'(Gemini-3-Flash 기반 웹 이해)와 'watch_video'(YouTube 분석) 도구를 포함하여 모달리티 커버리지를 확장했다.

실패 분석 결과, 에이전트가 검색한 증거의 87.7%가 텍스트에 편중되어 있어 실제 데이터셋 분포(텍스트 31.4%)와 큰 괴리를 보였다. 이는 모델들이 시각/청각 정보보다 텍스트 정보를 처리하는 데 훨씬 더 높은 선호도와 편향을 가지고 있음을 입증한다. 또한, 멀티스텝 검색 과정에서 첫 번째 단계의 오류가 최종 답변까지 전파되는 'Error Propagation' 현상이 빈번하게 발생하며, 이는 초기 증거 식별의 정확도가 전체 시스템 성능의 핵심임을 시사한다.

한계점

이 벤치마크는 Google Search를 기본 엔진으로 사용하므로 검색 엔진 자체의 랭킹 알고리즘 편향이 결과에 영향을 줄 수 있다. 또한 162개라는 표본 크기는 정밀한 진단에는 적합하나 대규모 통계적 유의성을 확보하기에는 제한적일 수 있으며, 웹 컨텐츠의 동적인 특성상 URL이 사라지거나 내용이 변경될 경우 재현성에 문제가 생길 수 있다.

실무 활용

웹 검색 기반의 AI 비서나 자동화된 리서치 에이전트를 개발할 때, 멀티모달 정보 통합 능력을 검증하는 엄격한 테스트베드로 활용 가능하다.

비디오 강의나 팟캐스트 내용을 포함한 복합 정보 검색 서비스의 성능 측정
검색 증강 생성(RAG) 시스템에서 텍스트 외 미디어 데이터의 활용 효율성 평가
AI 에이전트의 과잉 탐색 및 도구 오용 문제를 해결하기 위한 학습 데이터 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

MERRIN(멀티모달 증거 검색 벤치마크)Search-Augmented Agent(검색 증강 에이전트)Multi-hop Reasoning(멀티홉 추론)Web Search(웹 검색)Multimodal Retrieval(멀티모달 검색)