핵심 요약
기존 에이전트 벤치마크는 단일 도메인이나 특정 인터페이스에 국한되었으나, 이 논문은 시각, 검색, 코딩 능력을 동시에 활용해야 하는 복합적인 현실 세계 과제를 제안합니다. 현재 가장 뛰어난 모델조차 복합 작업에서는 신뢰성이 낮음을 입증하며 향후 범용 디지털 에이전트 연구의 새로운 기준점을 제시합니다.
왜 중요한가
기존 에이전트 벤치마크는 단일 도메인이나 특정 인터페이스에 국한되었으나, 이 논문은 시각, 검색, 코딩 능력을 동시에 활용해야 하는 복합적인 현실 세계 과제를 제안합니다. 현재 가장 뛰어난 모델조차 복합 작업에서는 신뢰성이 낮음을 입증하며 향후 범용 디지털 에이전트 연구의 새로운 기준점을 제시합니다.
핵심 기여
COCOABENCH 벤치마크 구축
인간이 설계한 153개의 복잡한 장기 과제로 구성된 데이터셋으로, 시각적 이해, 웹 검색, 코드 실행 능력을 유연하게 조합해야 해결 가능한 환경을 제공한다.
COCOA-AGENT 경량 스캐폴드 개발
다양한 모델 백본을 동일한 조건에서 비교할 수 있도록 브라우저, 셸, 파일 시스템이 통합된 샌드박스 기반의 ReAct 프레임워크를 공개했다.
에이전트 실패 사례의 체계적 분류
712개의 실패 궤적을 분석하여 추론 및 계획(53%), 시각적 접지(29%), 도구 및 실행(19%)의 세 가지 계층으로 구성된 실패 모드 분류 체계를 정립했다.
핵심 아이디어 이해하기
기존의 LLM 에이전트는 특정 API를 호출하거나 GUI를 조작하는 등 단일 모달리티 내에서는 뛰어난 성능을 보이지만, 현실의 복잡한 문제는 여러 능력을 동시에 요구한다. 예를 들어 온라인 쇼핑 작업은 상품 이미지를 보고(Vision), 최저가를 검색하며(Search), 영양 성분을 계산하는(Coding) 과정이 유기적으로 연결되어야 한다. Transformer 기반 모델들이 각 도메인에서는 SOTA를 기록하더라도, 이러한 이종 도메인 간의 계획 수립과 실행 전환 과정에서 병목 현상이 발생한다.
COCOABENCH는 에이전트가 특정 도구 세트에 종속되지 않고 '야생(In the wild)' 환경에서 스스로 도구를 선택하고 조합하도록 설계되었다. 이는 모델이 단순히 다음 토큰을 예측하는 것을 넘어, 환경의 피드백을 바탕으로 자신의 상태를 갱신하고 다음 행동을 결정하는 닫힌 루프(Closed-loop) 제어 능력을 테스트한다.
실험 결과, 강력한 코딩 능력을 갖춘 모델이 복합 과제에서도 더 높은 성공률을 보였다. 이는 코드를 실행하는 행위가 단순한 계산 도구를 넘어, 복잡한 추론 과정을 구조화하고 중간 데이터를 처리하는 강력한 '행동 공간' 역할을 수행하기 때문이다.
관련 Figure

에이전트가 채팅 지시를 이해하고 쇼핑몰 브라우징(Vision), 영양 정보 검색(Search), 파이썬 코드 실행(Coding)을 거쳐 최종 결제 금액을 산출하는 과정을 보여준다. COCOABENCH가 지향하는 복합적이고 다단계적인 과제의 특성을 잘 설명한다.
쇼핑 과제를 해결하기 위해 시각, 검색, 코딩 능력을 조합하는 에이전트의 작업 흐름 다이어그램
방법론
COCOABENCH는 비즈니스, 교육, 쇼핑 등 9개 도메인에서 153개의 과제를 수집했다. 각 과제는 자연어 지시문과 최종 출력을 검증하는 자동 평가 스크립트로 구성된다. 평가 방식은 LLM 판정관이나 인간의 개입 없이 결과 기반의 프록시 평가기를 사용하여 객관성을 확보했다.
COCOA-AGENT 스캐폴드는 ReAct(Reasoning + Acting) 패턴을 채택했다. 브라우저 조작(17개), DOM 접근(11개), 파일 및 셸 실행(11개) 등 총 39개의 도구를 제공한다. 모든 실행은 격리된 Docker 컨테이너 내부의 AIO Sandbox에서 이루어지며, 브라우저 스크린샷과 DOM 트리 정보를 동시에 입력으로 제공하여 멀티모달 추론을 지원한다.
실패 분석을 위해 3단계 계층 구조의 Taxonomy를 설계했다. E1(Reasoning & Planning)은 목표 변위나 잘못된 전략을, E2(Tool & Execution)는 무한 루프나 도구 결과 환각을, E3(Visual Grounding)은 미세한 시각 정보 누락이나 지식 부족을 측정한다. [에이전트 실행 로그 입력 → LLM 판정관 분류 → 실패 코드 할당] 순으로 분석을 수행하여 모델별 취약점을 정량화했다.
주요 결과
실험 결과, GPT-5.4 기반의 시스템이 45.1%의 성공률로 가장 높은 성능을 기록했으나 여전히 신뢰할 수 있는 수준에는 미치지 못했다. 오픈소스 모델인 Kimi-k2.5와 Qwen3.5는 각각 11.8%와 9.8%의 낮은 성공률을 보여 상용 모델과의 격차가 뚜렷하게 나타났다.
도구 사용 패턴 분석에서 상위 모델일수록 코드 실행(code_execute) 비중이 높았다. GPT-5.4와 Gemini 3.1 Pro는 전체 도구 호출의 60% 이상을 코딩에 할당한 반면, 하위 모델들은 브라우저 내에서의 단순 시각적 탐색에 머무는 경향을 보였다. 이는 복잡한 데이터를 구조적으로 처리하는 능력이 에이전트 성능의 핵심임을 시사한다.
비용 효율성 측면에서 Codex 스캐폴드 기반의 GPT-5.4는 작업당 평균 2.31의 비용이 발생하여, 에이전트 프레임워크 설계가 운영 비용에 큰 영향을 미침이 확인됐다.
관련 Figure

GPT-5.4가 모든 설정에서 압도적인 성능을 보이며, 특히 전용 코딩 스캐폴드(Codex)와 결합했을 때 45.1%의 최고 성능을 기록함을 보여준다. 오픈소스 모델들과의 성능 격차가 매우 큼을 시각적으로 확인할 수 있다.
기존 에이전트 시스템과 COCOA-AGENT 스캐폴드 하에서의 모델별 성공률 비교 차트

성능이 높은 GPT-5.4와 Gemini 3.1 Pro는 코딩 도구 사용 비중이 60%를 넘는 반면, 성능이 낮은 모델들은 시각 및 검색 도구에 더 의존하는 경향을 보여준다. 이는 코딩 능력이 복합 과제 해결의 핵심 동력임을 입증한다.
모델별 도구 호출 카테고리(Coding, Vision, Search) 비중 분포도
기술 상세
COCOABENCH는 인프라 결합도를 낮추기 위해 특정 런타임에 종속되지 않는 'Open' 인프라 커플링 방식을 채택했다. 이는 에이전트가 로컬 환경이나 클라우드 샌드박스 등 다양한 인프라에서 동일한 지시문으로 테스트될 수 있음을 의미한다.
실패 모드 분석 결과, 전체 실패의 53%가 'Reasoning & Planning' 단계에서 발생했다. 특히 'Incorrect Reasoning(E1.1)'이 가장 큰 비중을 차지했는데, 이는 모델이 목표를 단순화하여 해결하거나(Goal displacement) 근본적으로 잘못된 전략을 선택하는 경우가 많음을 보여준다.
시각적 접지(Visual Grounding) 오류 중에서는 'Visual Detail(E3.1)' 부족이 15.5%로 나타났다. 이는 VLM이 전체적인 레이아웃은 파악하더라도 미세한 텍스트나 작은 아이콘을 정확히 인식하지 못해 발생하는 문제로, 향후 고해상도 시각 인지 능력 개선이 필요함을 시사한다.
관련 Figure

실패의 절반 이상(53%)이 추론 및 계획 단계에서 발생하며, 특히 하위 모델일수록 잘못된 추론(E1.1)과 형식 오류(E1.3) 비중이 급격히 높아짐을 분석한다.
전체 모델의 실패 유형 분포(왼쪽) 및 GPT-5.4와 Kimi K2.5의 실패 유형 비교(오른쪽)
한계점
웹 리소스의 동적 변화로 인해 외부 의존성이 있는 일부 과제의 유효성이 시간이 지남에 따라 변할 수 있는 위험이 있다. 또한, 결과 기반의 프록시 평가 방식은 중간 과정의 논리적 무결성을 완벽하게 보장하지 못할 수 있다.
실무 활용
기업용 워크플로 자동화나 복합적인 웹 리서치 에이전트를 개발할 때, 모델의 단일 성능보다 도구 간의 유연한 전환 능력을 평가하는 기준으로 활용할 수 있습니다.
- 여러 웹사이트의 정보를 취합하여 엑셀로 정리하고 특정 수식에 따라 결과를 산출하는 자동화 도구 개발
- GUI 기반 소프트웨어의 복잡한 사용자 시나리오를 자동으로 테스트하는 QA 에이전트 구축
- 시각적 차트 분석과 외부 데이터 검색이 동시에 필요한 금융 리서치 보조 시스템 평가
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.