InterLV-Search: 교차 멀티모달 에이전트 검색 벤치마킹

기존 AI 에이전트 검색이 이미지를 단순히 최종 답변 확인용으로만 썼다면, 이 논문은 이미지를 다음 검색 방향을 결정하는 핵심 단서로 활용하는 능력을 평가합니다. 실제 웹 환경처럼 텍스트와 이미지가 복잡하게 얽힌 상황에서 AI의 추론 능력을 한 단계 높이는 이정표가 될 것입니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

InterLV-Search 벤치마크 구축

텍스트와 시각적 증거가 반복적으로 교차하며 다음 검색을 유도하는 2,061개의 사례를 포함한 3단계 난이도의 벤치마크를 제안했다.

InterLV-Agent 프레임워크 제공

표준화된 도구 사용, 궤적 기록 및 평가를 위한 참조 프레임워크를 구현하여 다양한 모델 간의 공정한 비교를 가능하게 했다.

확장 가능한 데이터 생성 파이프라인

MLLM 기반의 자동화된 파이프라인(Level 1, 2)과 전문가 감독 하의 기계 주도 파이프라인(Level 3)을 통해 고품질 데이터를 대량으로 생성하는 체계를 구축했다.

멀티모달 에이전트의 한계 규명

최신 상용 및 오픈소스 모델들을 테스트한 결과, 전체 정확도가 50% 미만에 머물러 시각적 증거 탐색 및 통합에 여전히 큰 과제가 있음을 입증했다.

핵심 아이디어 이해하기

기존의 멀티모달 검색은 사용자가 준 이미지를 설명하거나 검색 결과로 나온 이미지가 정답인지 확인하는 수준에 그쳤다. 이는 마치 지도를 보고 목적지를 찾는 것이 아니라, 목적지에 도착해서 사진만 찍는 것과 같다. 진정한 에이전트라면 이미지 속의 작은 로고나 표지판을 보고 '다음에는 저 이름을 검색해야겠구나'라고 판단하는 능력이 필요하다.

이 논문은 이러한 '시각적 피벗' 개념을 도입했다. 텍스트 쿼리로 시작해 이미지를 찾고, 그 이미지에서 얻은 새로운 단서로 다시 텍스트 검색을 수행하는 과정이 사슬처럼 엮인다. 이를 위해 지식 그래프의 엔티티 간 관계를 활용하여 인위적으로 끊어진 정보의 고리를 만들고, AI가 시각적 정보를 통해서만 그 고리를 연결할 수 있도록 설계했다.

결과적으로 AI는 단순한 패턴 매칭이 아니라, 시각적 정보를 논리적 추론의 중간 단계로 활용해야만 문제를 풀 수 있다. 이는 AI가 인간처럼 세상을 관찰하고 능동적으로 정보를 수집하는 방식으로 진화하는 데 필수적인 단계이다.

관련 Figure

#1Diagram
기존 방식은 이미지를 최종 답변 확인용(Endpoint)으로만 쓰지만, InterLV-Search는 이미지를 다음 검색을 위한 전환점(Pivot)으로 활용함을 보여준다. 레벨별로 시각적 증거가 어떻게 검색 경로를 제어하는지 시각화했다.
기존 벤치마크와 InterLV-Search의 검색 방식 비교 다이어그램

방법론

InterLV-Search는 난이도에 따라 세 가지 레벨로 구성된다. Level 1은 텍스트 요구사항에서 시각적 증거를 찾는 기초 능력을, Level 2는 통제된 환경에서의 다중 홉 교차 검색을, Level 3은 실제 웹 환경에서의 복잡한 검색 및 비교 능력을 평가한다.

데이터 생성 시 MLLM을 활용하여 VQA(시각 질의 응답) 서브쿼리와 검색 서브쿼리를 결합한다. [엔티티 메타데이터 입력 → MLLM이 이미지 기반 세부 속성 질문 생성 → 엔티티 이름을 숨긴 암시적 검색 쿼리 생성 → 자연스러운 질문으로 합성] 과정을 거쳐 시각적 확인 없이는 풀 수 없는 문제를 만든다.

InterLV-Agent는 '이유-행동-관찰(Reason-Act-Observe)' 루프를 따른다. 에이전트는 도구 호출 전 현재 상태를 반영(Reflection)하고, 단기/장기 메모리 구조를 통해 이전의 시각적 단서와 검색 결과를 유지하며 다음 행동을 결정한다. 메모리 업데이트는 Mt = Update(Mt-1, qt, ot) 형식을 따르며, [이전 메모리 Mt-1, 현재 쿼리 qt, 관찰 ot 입력 → 요약 및 통합 연산 → 새로운 상태 Mt 출력] 순으로 진행되어 긴 궤적에서도 문맥을 유지한다.

관련 Figure

#2Diagram
지식 그래프 기반의 자동 생성(Level 1, 2)과 웹 확장 및 인간 피드백이 포함된 Level 3 구축 과정을 상세히 설명한다. 품질 검수(Quality Judge)와 AI 셀프 체크 단계가 포함되어 데이터의 신뢰성을 높인다.
InterLV-Search의 3단계 데이터 구축 파이프라인

주요 결과

실험 결과, 도구를 사용하지 않은 직접 답변 방식은 Level 3에서 최대 20%의 정확도에 그쳐 외부 검색의 필요성을 확인했다. 도구를 사용하더라도 GPT-5.4(가칭)와 Gemini 3.1 Pro 등 최상위 모델조차 전체 정확도가 50%를 넘지 못했다.

Level 2에서 이미지 검색 도구를 제거했을 때 성능이 급격히 하락했는데, 이는 시각적 피벗이 검색 경로를 유지하는 데 필수적임을 보여준다. 특히 다중 분기(Multi-branch) 과제에서는 단일 경로 과제보다 성능이 현저히 낮아, 여러 정보를 비교하고 통합하는 에이전트의 제어 능력이 부족함이 드러났다.

Ablation Study를 통해 메모리 기능이 Level 3와 같은 긴 경로의 검색에서 성능 유지에 결정적인 역할을 함을 수치로 증명했다. 상용 모델들은 오픈소스 모델들보다 도구 활용 및 시각 정보 통합 능력에서 압도적인 우위를 보였으나, 여전히 복잡한 시각적 단서를 놓치는 경우가 많았다.

관련 Figure

#3Chart
영화, 엔터테인먼트, 지리 등 다양한 도메인을 포괄하며, 평균 6~7회의 검색 홉을 요구하는 복잡한 과제들로 구성되어 있음을 보여준다. 이는 단순 검색보다 훨씬 긴 호흡의 추론이 필요함을 의미한다.
벤치마크 데이터셋의 카테고리 분포 및 검색 홉 수 통계

기술 상세

InterLV-Search는 지식 그래프(MMKG-W)를 기반으로 검증 가능한 멀티 홉 경로를 추출하여 구축되었다. Level 2의 'Intermediate-visual-probed' 샘플은 경로 중간에 시각적으로 유사하지만 의미적으로 다른 '브릿지 엔티티'를 삽입하여 에이전트가 시각적 정밀 검증을 수행하도록 강제한다.

InterLV-Agent 프레임워크는 경량화된 2단계 메모리 시스템을 채택했다. 단기 메모리는 최근의 상호작용 라운드를 그대로 저장하고, 장기 메모리는 이전 단계의 핵심 엔티티, 시각적 단서, 해결되지 않은 하위 목표를 자연어 형태로 요약하여 저장함으로써 컨텍스트 윈도우 효율성을 극대화한다.

평가 프로토콜은 GPT-5.4-mini를 판정관으로 사용하여 모델 출력과 정답 간의 의미적 동일성을 판단한다. 이때 단순한 텍스트 매칭이 아니라 별칭, 패러프레이징, 사소한 형식 차이를 허용하는 유연한 평가 방식을 적용했다. 또한 각 레벨별로 상호작용 횟수 제한(Budget)을 두어 효율적인 검색 전략을 유도했다.

관련 Figure

#4Diagram
에이전트가 도구 사용 전 성찰(Reflection)을 수행하고, 단기/장기 메모리를 업데이트하며 멀티모달 도구들과 상호작용하는 전체 구조를 보여준다. 제한된 예산 내에서 최적의 검색을 수행하기 위한 설계가 특징이다.
InterLV-Agent의 아키텍처 및 워크플로 개요

한계점

웹 환경의 동적 특성으로 인해 Level 3의 일부 소스 URL이 시간이 지남에 따라 유효하지 않게 될 수 있는 'Answer Drift' 문제가 존재한다. 또한 현재 벤치마크는 영어 위주로 구성되어 있어 다국어 환경에서의 성능 평가는 제한적이다.

실무 활용

웹 브라우징 에이전트나 복잡한 정보를 탐색하는 AI 연구 도구 개발에 직접적으로 활용될 수 있습니다. 특히 시각적 정보가 풍부한 이커머스, 여행 계획, 기술 문서 분석 분야에서 에이전트의 성능을 정밀하게 측정하고 개선하는 가이드라인을 제공합니다.

이미지 속 단서를 추적하여 복잡한 사실 관계를 확인하는 팩트 체크 에이전트
웹페이지의 레이아웃과 시각적 요소를 분석해 다음 탐색 경로를 결정하는 자율 브라우징 서비스
여러 상품의 이미지와 상세 스펙을 비교 분석하여 최적의 선택을 돕는 쇼핑 에이전트

코드 공개 여부: 공개

코드 저장소 보기

키워드

Multimodal Search(멀티모달 검색)Agentic Search(에이전트 검색)Visual Pivot(시각적 피벗)Interleaved Reasoning(교차 추론)Benchmark(벤치마크)

코드 예제

python

Mt = Update(Mt−1, qt, ot)

에이전트의 메모리가 이전 상태, 현재 쿼리, 관찰 결과를 바탕으로 업데이트되는 수식 표현

InterLV-Search: 교차 멀티모달 에이전트 검색 벤치마킹

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

InterLV-Search 벤치마크 구축

텍스트와 시각적 증거가 반복적으로 교차하며 다음 검색을 유도하는 2,061개의 사례를 포함한 3단계 난이도의 벤치마크를 제안했다.

InterLV-Agent 프레임워크 제공

표준화된 도구 사용, 궤적 기록 및 평가를 위한 참조 프레임워크를 구현하여 다양한 모델 간의 공정한 비교를 가능하게 했다.

확장 가능한 데이터 생성 파이프라인

멀티모달 에이전트의 한계 규명

최신 상용 및 오픈소스 모델들을 테스트한 결과, 전체 정확도가 50% 미만에 머물러 시각적 증거 탐색 및 통합에 여전히 큰 과제가 있음을 입증했다.

핵심 아이디어 이해하기

관련 Figure

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

이미지 속 단서를 추적하여 복잡한 사실 관계를 확인하는 팩트 체크 에이전트
웹페이지의 레이아웃과 시각적 요소를 분석해 다음 탐색 경로를 결정하는 자율 브라우징 서비스
여러 상품의 이미지와 상세 스펙을 비교 분석하여 최적의 선택을 돕는 쇼핑 에이전트

코드 공개 여부: 공개

코드 저장소 보기

키워드

Multimodal Search(멀티모달 검색)Agentic Search(에이전트 검색)Visual Pivot(시각적 피벗)Interleaved Reasoning(교차 추론)Benchmark(벤치마크)

코드 예제

python

Mt = Update(Mt−1, qt, ot)

에이전트의 메모리가 이전 상태, 현재 쿼리, 관찰 결과를 바탕으로 업데이트되는 수식 표현

InterLV-Search: 교차 멀티모달 에이전트 검색 벤치마킹

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

코드 예제

InterLV-Search: 교차 멀티모달 에이전트 검색 벤치마킹

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

코드 예제

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드