WildClawBench: 실세계의 장기 에이전트 평가를 위한 벤치마크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대규모 언어 모델(LMM/VLM) 기반 에이전트가 실세계의 멀티툴 워크플로우를 안정적으로 수행하는지 평가하기 어렵다. 기존 벤치마크는 합성 샌드박스, 짧은 시간의 작업, 모의 API 위주로 구성되어 실제 런타임에서의 도구 활용과 경로-생성(trajectory) 검증이 부족했다. WildClawBench는 60개 사람 작성 태스크를 네이티브 런타임 컨테이너에서 실행하고, 규칙-기반 평가+환경 상태 감사+LLM/VLM 판정의 하이브리드 검증으로 긴 호라이즌의 실전 워크플로우를 포착한다. 이를 통해 현 시점 프런티어 모델의 실제 활용 가능성과 한계를 보다 명확히 드러낸다.

왜 중요한가

대규모 언어 모델(LMM/VLM) 기반 에이전트가 실세계의 멀티툴 워크플로우를 안정적으로 수행하는지 평가하기 어렵다. 기존 벤치마크는 합성 샌드박스, 짧은 시간의 작업, 모의 API 위주로 구성되어 실제 런타임에서의 도구 활용과 경로-생성(trajectory) 검증이 부족했다. WildClawBench는 60개 사람 작성 태스크를 네이티브 런타임 컨테이너에서 실행하고, 규칙-기반 평가+환경 상태 감사+LLM/VLM 판정의 하이브리드 검증으로 긴 호라이즌의 실전 워크플로우를 포착한다. 이를 통해 현 시점 프런티어 모델의 실제 활용 가능성과 한계를 보다 명확히 드러낸다.

핵심 기여

네이티브 런타임에서의 장기 에이전트 평가 벤치마크 도입

OpenClaw, Claude Code, Codex, Hermes Agent 등 실제 런타임 컨테이너에서 실행되도록 구성된 60개 과제와 6개 카테고리의 워크플로를 제공한다.

60개 과제·다카테고리·다중 모달 포함

26개 멀티모달 과제와 34개 순수 텍스트 과제를 포함하며, 각 과제는 Markdown 형식의 작업 명세와 실행 가능한 workspace를 가진다.

하이브리드 평가 프로토콜

규칙 기반 검사, 환경 상태 감사, LLM/VLM 판정을 결합한 다중 신호로 최종 산출물의 정확성과 환경 영향의 양쪽을 평가한다.

동일 워크스페이스 및 고정된 도구 스키마로 공정 비교

OpenRouter 엔드포인트를 통한 모델 간 비교가 가능하게 하며, 하니스·도구 스키마·시스템 프롬프트를 일정하게 유지한다.

재현 가능한 컨테이너 기반 평가

격리된 Docker 컨테이너에서 실행되고, 실행 종료 후 산출물과 로그를 수집·분석한다.

핵심 아이디어 이해하기

출발점: 기존 벤치마크는 단일 샌드박스·짧은 시간의 태스크에 집중하며, 긴 호라이즌의 도구 사용과 트레이젝토리의 정합성 확인이 부족했다. 논문은 실제 CLI 에이전트 하니스에서 실제 도구에 접근하고, 장기간의 워크플로우를 수행하는 평가를 제시한다. 핵심 아이디어는 환경 변화에 따른 상태 변동, 도구 호출의 트레이젝토리, 그리고 런타임에서의 이행 실패를 포착하는 시스템이다. 실험은 모델 간 도메인 특성 차이와 하니스 선택의 영향, 시간 예산에 따른 성능 차이를 드러낸다.

방법론

TASK DESIGN: 60개 작업, 6개 카테고리, YAML 메타데이터와 워크스페이스를 포함한 Markdown 형식의 명세, 실행 가능한 채점기. 2) 데이터 큐레이션 파이프라인: 후보 작업에서 레퍼런스 정답 제작, 모델 기반 필터링(∆ij≥0.2) 및 인간 필터링으로 최종 60개 작업 선정. 3) 평가 프레임워크: 격리된 Docker 컨테이너에서 OpenClaw/Claude Code/Codex/Hermes를 사용, 동일 워크스페이스, 고정된 도구 스키마/시스템 프롬프트, 종료 후 자원 수집. 4) 채점: 규칙 기반 검사 + 환경 상태 감사 + LLM/VLM 판정의 하이브리드 채점. 5) 분석: 카테고리별 모델 역량 및 하니스 간 차이, 번역 언어별 편차, 재현성 및 반복 실행 간 변동성 분석.

주요 결과

주요 벤치마크 결과: Claude Opus 4.7은 OpenClaw 하니스에서 62.2%의 총 점수를 달성하며, 점수 범위는 19.3%에서 62.2%까지 분포한다. 멀티모달 워크플로우가 순수 텍스트보다 어려운 경우가 많고, 시간 예산 및 사용 가능한 스킬에 따라 점수 변화가 크게 나타난다. 하니스를 바꿔도 성능 차이가 커지며, 모델 간 도메인 프로필이 상이하다. 또한 예산 반/확대에 따른 수익 감소/완화 효과가 관찰되며, 도구 사용 및 도메인 특화 스킬의 추가가 특정 모델의 성능을 높인다. 또한 벤치마크는 60개 태스크를 통해 실제 배포 환경에서의 에이전트 성능 차이를 드러낸다.

기술 상세

아키텍처 개요: 60개 작업, 6개 카테고리, Markdown 메타데이터 및 워크스페이스를 포함한 작업 명세. 실행 엔진은 OpenClaw/Claude Code/Codex/Hermes로 구성된4개 하니스를 사용하고, 동일한 워크스페이스와 도구 스키마를 공유한다. 핵심 알고리즘/메커니즘: 규칙 기반 체크, 환경 상태 감사, LLM/VLM 판정을 결합한 하이브리드 평가 체계. 차별점: 네이티브 런타임에서 실제 도구를 사용해 멀티툴 워크플로를 수행하는 점, 60개 태스크의 이중언어/멀티모달 구성을 통해 도메인별 프로파일을 분석하는 점. 구현 세부: 도커 컨테이너 격리, ground-truth 자원 마운트 후 평가, 파이프라인 기반 태스크 선정 및 재현성 검증. 이론적 기반: 트레이젝토리 감사와 외부 도구 활용의 중요성에 대한 실증적 근거 제공.

실무 활용

생산급 네이티브 런타임에서의 에이전트 실전 성능 평가를 위한 실용 벤치마크를 제공한다.

에이전트 런타임의 안정성 및 회복력 평가
도구 사용 시나리오의 트레이젝토리 분석
하니스 간 차이에 따른 엔드-투-엔드 성능 비교
멀티모달 워크플로우의 실환경 적합성 평가

코드 공개 여부: 공개

코드 저장소 보기

키워드

CLI멀티모달도커 컨테이너LLM/VLM 판정자의미 검증도구 호출에이전트 벤치마크네이티브 런타임 평가