AgentVista: 초고난도 현실적 시각 시나리오에서의 멀티모달 에이전트 평가

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 멀티모달 벤치마크는 단순한 시각 추론에 집중했지만, 실제 환경에서는 복잡한 도구 사용과 긴 단계의 작업 수행이 필요하다. AgentVista는 현실적인 이미지와 결합된 25단계 이상의 도구 호출이 필요한 과제를 통해 현재 멀티모달 에이전트의 한계를 명확히 드러내고 연구 방향을 제시한다.

왜 중요한가

핵심 기여

현실적이고 복잡한 209개의 멀티모달 에이전트 과제 구축

일상 사진, 스크린샷, 기술 도표 등 실제 세계의 데이터를 활용하여 7개 카테고리, 25개 하위 도메인에 걸친 209개의 고난도 태스크를 제안했다.

장기적(Long-horizon) 도구 상호작용 평가 체계 도입

단순 질의응답을 넘어 웹 검색, 이미지 검색, 페이지 탐색, 코드 실행 등 다양한 도구를 복합적으로 사용하여 문제를 해결해야 하는 환경을 조성했다.

엄격한 4단계 데이터 생성 파이프라인 적용

모델 보조 필터링, 전문가 검수, 실행 기반 필터링, 2차 검증을 거쳐 시각 정보 의존성이 높고 정답이 고유하며 검증 가능한 고품질 데이터를 확보했다.

핵심 아이디어 이해하기

기존 멀티모달 모델은 주로 이미지 한 장을 보고 텍스트로 답하는 정적인 추론 방식에 머물러 있었다. 이는 고정된 입력(Embedding)에서 정답을 도출하는 구조로, 실제 사용자가 요구하는 복잡한 워크플로우를 처리하기에는 한계가 있다. AgentVista는 에이전트가 환경과 상호작용하며 정보를 능동적으로 획득하는 '에이전틱(Agentic)' 능력을 평가하는 데 초점을 맞춘다.

이 벤치마크는 단순히 이미지를 인식하는 것을 넘어, 필요한 정보를 찾기 위해 웹을 검색하거나 이미지의 특정 부분을 확대(Zoom-in)하고 코드를 작성해 수치를 계산하는 등 도구 사용(Tool Use)을 핵심으로 삼는다. 특히 '장기적 상호작용(Long-horizon)' 개념을 도입하여, 한두 번의 도구 호출이 아닌 평균 12회 이상의 복합적인 단계를 거쳐야만 최종 정답에 도달할 수 있도록 설계했다.

이는 모델이 중간 단계의 시각적 단서를 놓치지 않고 끝까지 추론을 유지해야 함을 의미한다. 현재 SOTA 모델들에게도 매우 도전적인 과제이며, 모델이 시각적 정보를 얼마나 정밀하게 파악하고 이를 도구 실행과 논리적으로 연결하는지를 측정하는 척도가 된다.

방법론

데이터셋 구축은 30만 개 이상의 원시 이미지 풀에서 시작하여 4단계 파이프라인을 거친다. 먼저 Claude-3-Opus를 활용해 시각적 정보가 풍부한 이미지를 선별하고 초기 쿼리를 생성한 뒤, 인간 작업자가 이를 현실적인 사용자 의도로 재작성한다. 이후 실행 필터링 단계에서 Gemini-3-Flash를 사용하여 도구 사용의 다양성을 검증하고, 도구 없이 프롬프트만으로 풀 수 있는 쉬운 문제를 제거한다. 마지막으로 두 차례의 인간 검증을 통해 시각적 증거의 명확성과 정답의 유일성을 확정한다.

에이전트가 사용하는 도구 환경은 Web Search, Image Search, Visit(웹페이지 방문), Code Interpreter로 구성된다. 특히 Code Interpreter는 PIL, NumPy 등을 포함하여 이미지 크롭, 리사이징, 측정 등 정밀한 시각 분석 작업을 코드로 수행할 수 있도록 지원한다. 각 도구는 구조화된 입력을 받고 실행 결과를 텍스트나 이미지 형태로 반환하여 에이전트가 다음 행동을 결정하는 근거로 활용하게 한다.

성능 향상을 위한 Test-time Scaling 기법도 평가에 포함되었다. [K개의 독립적인 솔루션 생성 → 보상 모델(Reward Model)로 각 솔루션의 점수 계산 → 가장 높은 점수의 솔루션 선택 → 최종 정답 도출] 과정을 통해 모델의 추론 신뢰도를 높이는 방식을 분석했다.

주요 결과

Gemini-3-Pro가 27.27%의 정확도로 가장 높은 성능을 기록했으나, 여전히 개선의 여지가 매우 크다. GPT-5.2는 평균 13.85회의 도구 호출을 수행하며 복잡한 추론 과정을 보여주었으나 전체 정확도는 24.40%에 머물렀다. 이는 현재의 최첨단 모델들도 장기적인 도구 사용과 정밀한 시각적 추론이 결합된 과제에서 큰 어려움을 겪고 있음을 시사한다.

오류 분석 결과 '시각적 오인식(Visual Misidentification)'이 모든 모델에서 가장 지배적인 실패 원인으로 나타났다. 이미지가 흐릿하거나 핵심 단서가 미세한 경우 에이전트가 이를 잘못 파악하여 이후의 모든 도구 사용 단계가 잘못된 방향으로 흐르는 현상이 관찰되었다. 지식 환각(Knowledge Hallucination)이 두 번째로 흔한 오류였으며, 이는 웹 검색을 통해서도 해결되지 않는 롱테일 지식에 대한 한계를 보여준다.

도구 사용 패턴 분석에서 GPT 시리즈는 Code Interpreter를 통한 시각 분석에 의존하는 반면, Gemini와 Claude 시리즈는 Web Search를 더 빈번하게 사용하는 경향을 보였다. 또한 멀티 이미지 입력이 단일 이미지보다 성능 향상에 도움이 되는 경우가 많았는데, 이는 추가적인 시각적 관점이 모호성을 해소하고 더 확실한 증거를 제공하기 때문이다.

기술 상세

AgentVista는 7개 카테고리(기술, 상거래, 지리, 엔터테인먼트, 사회, 학술, 문화)를 포괄하며, 각 태스크는 시각적 증거에 대한 강한 의존성을 갖도록 설계되었다. 이는 텍스트 기반 지식만으로는 해결할 수 없음을 보장한다. 도구 호출 메커니즘은 <tool_call>...</tool_call> 블록 형식을 사용하며, 모델은 각 단계에서 도구 실행 결과를 관찰(Observation)하고 다음 행동을 결정하는 반복적인 루프를 수행한다.

성능 평가를 위해 GPT-4.1을 고정된 판정 모델(Fixed Judge)로 사용하여 모델의 최종 응답이 정답과 일치하는지 결정론적으로 검증한다. 이는 자유 형식의 응답에서 발생할 수 있는 평가의 주관성을 배제한다. 실험 결과 Test-time Scaling(Best-of-N) 기법이 성능 향상에 기여함을 확인했다. Gemini-3-Flash 기준 K=16일 때 정확도가 21.05%에서 30.62%로 상승했으나, 여전히 상한선(Pass@16, 51.67%)과는 큰 격차가 존재한다.

구현 측면에서 Code Interpreter는 상태가 유지되는(stateful) Jupyter 커널에서 실행되어 변수와 함수를 여러 단계에 걸쳐 재사용할 수 있다. 이는 복잡한 시각 분석 파이프라인을 코드로 구축하는 데 필수적인 기능이다. 또한 에이전트가 한 번에 하나의 도구만 호출하도록 제한하여 추론 과정의 명확성을 확보했다.

한계점

모델이 시각적 단서를 찾기 위해 줌인(Zoom-in)을 할 수 있음에도 불구하고, 이미지가 본질적으로 흐릿하거나 핵심 단서가 너무 미세한 경우 여전히 오인식이 발생한다. 또한 웹 검색을 통해 획득한 정보가 부정확하거나 모델이 이를 잘못 해석하는 경우에도 실패로 이어진다.

실무 활용

현실적인 시각 정보를 바탕으로 복잡한 문제를 해결해야 하는 쇼핑 도우미, 기술 지원 에이전트, 여행 계획 서비스 등의 개발 및 평가에 직접 활용될 수 있다.

제품 라벨의 영양 성분을 분석하고 온라인 권장 가이드와 비교하여 건강 적합성 판단
기기 고장 사진을 보고 온라인 매뉴얼의 회로도와 대조하여 수리 방법 제안
복잡한 지하철 노선도와 실시간 시간표를 결합하여 최적의 환승 경로 설계
부품 조립 도면과 실제 부품 사진을 비교하여 잘못 조립된 부분 식별 및 해결책 제시

코드 공개 여부: 공개

코드 저장소 보기

키워드

Multimodal Agent(멀티모달 에이전트)Visual Reasoning(시각적 추론)Tool Use(도구 사용)Benchmark(벤치마크)Long-horizon Task(장기적 과제)