핵심 요약
현실 세계의 멀티모달 에이전트(multimodal agents)는 시각적 근거에 기반한 다단계 워크플로우를 해결합니다. 예를 들어, 에이전트는 배선 사진을 도식과 연결하고 온라인 문서를 통해 수리 내용을 검증하여 장치를 수리하거나, 교통 지도를 해석하고 경로 제약 조건 하에서 일정을 확인하여 여행을 계획할 수 있습니다. 그러나 기존의 멀티모달 벤치마크는 주로 단일 턴 시각적 추론(single-turn visual reasoning)이나 특정 도구 기술만을 평가하며, 실제 에이전트에게 필요한 현실성, 시각적 세밀함, 그리고 장기적인 도구 사용(long-horizon tool use)을 충분히 포착하지 못합니다. 본 논문에서는 7개 카테고리에 걸친 25개 하위 도메인을 아우르는 범용 멀티모달 에이전트용 벤치마크인 AgentVista를 소개합니다. 이 벤치마크는 현실적이고 세부 정보가 풍부한 시각적 시나리오와 자연스러운 하이브리드 도구 사용을 결합합니다. 작업에는 웹 검색, 이미지 검색, 페이지 탐색, 이미지 처리 및 일반 프로그래밍을 위한 코드 기반 작업을 포함하여 양식(modality)을 넘나드는 장기적인 도구 상호작용이 필요합니다. 최첨단 모델들에 대한 종합적인 평가는 장기적인 멀티모달 도구 사용 능력에 있어 상당한 격차가 있음을 드러냅니다. 평가 대상 중 가장 우수한 모델인 도구를 사용하는 Gemini-3-Pro조차 전체 정확도가 27.3%에 불과하며, 어려운 사례의 경우 25회 이상의 도구 호출 턴이 필요할 수 있습니다. 우리는 AgentVista가 현실적이고 매우 도전적인 문제 해결을 위한 더 유능하고 신뢰할 수 있는 멀티모달 에이전트 개발을 가속화할 것으로 기대합니다.
핵심 기여
AgentVista 벤치마크 구축
7개 카테고리와 25개 하위 도메인으로 구성된 현실적이고 세밀한 시각 시나리오 기반의 멀티모달 에이전트 평가 환경을 제공함.
하이브리드 도구 사용 시나리오 도입
웹 검색, 이미지 검색, 페이지 탐색, 코드 실행 등 다양한 도구를 복합적으로 활용해야 하는 장기적 작업을 포함함.
최첨단 모델의 성능 한계 규명
Gemini-3-Pro와 같은 최신 모델도 복잡한 시각적 추론과 다단계 도구 사용이 결합된 환경에서 낮은 성능을 보임을 확인함.
방법론
현실 세계의 복잡한 워크플로우 모사를 위해 25개 세부 도메인을 설정하고 각 작업에 시각적 데이터와 도구 사용 권한을 부여함. 이미지 처리, 웹 탐색, 코드 기반 연산 등 다중 모달리티 도구 호출을 통해 문제를 해결하며 최대 25턴 이상의 장기적인 상호작용 구조를 가짐.
주요 결과
도구를 활용하는 Gemini-3-Pro 모델이 27.3%의 전체 정확도를 기록하며 가장 높은 성능을 보임. 고난도 인스턴스에서 25회 이상의 도구 호출이 필요하며 기존 모델들이 장기적인 멀티모달 도구 사용에서 큰 성능 격차를 보임을 입증함.
시사점
단순한 시각적 질의응답을 넘어 실제 환경에서 도구를 조작하는 에이전트의 성능을 객관적으로 측정할 수 있는 기준을 제시함. 모델의 장기 추론 및 도구 활용 능력을 개선하고 실제 서비스에 적용 가능한 수준의 멀티모달 에이전트를 구축하는 데 기여함.
키워드
섹션별 상세
AgentVista 벤치마크 구축
하이브리드 도구 사용 시나리오 도입
최첨단 모델의 성능 한계 규명
AI 요약 · 북마크 · 개인 피드 설정 — 무료