핵심 요약
기존 AI 에이전트 벤치마크는 정적인 샌드박스 환경에 치중되어 실제 웹의 복잡성을 반영하지 못했다. 이 논문은 144개 실제 플랫폼에서 결제, 예약 등 '쓰기' 중심의 작업을 평가하는 프레임워크를 제시하여 AI 에이전트의 실질적인 유용성을 검증한다.
왜 중요한가
기존 AI 에이전트 벤치마크는 정적인 샌드박스 환경에 치중되어 실제 웹의 복잡성을 반영하지 못했다. 이 논문은 144개 실제 플랫폼에서 결제, 예약 등 '쓰기' 중심의 작업을 평가하는 프레임워크를 제시하여 AI 에이전트의 실질적인 유용성을 검증한다.
핵심 기여
CLAWBENCH 평가 프레임워크 구축
15개 카테고리, 144개 실제 웹 플랫폼에 걸친 153개의 일상적 작업을 포함하는 벤치마크를 설계했다. 단순 정보 조회를 넘어 예약, 구매, 신청 등 서버 상태를 변경하는 'Write-heavy' 작업에 집중한다.
안전한 실환경 평가를 위한 Interception Mechanism
실제 운영 중인 웹사이트에서 에이전트를 테스트할 때 발생할 수 있는 결제나 주문 등의 부작용을 방지하기 위해, 최종 제출 HTTP 요청만을 가로채고 차단하는 경량 크롬 확장 프로그램 기반 메커니즘을 개발했다.
5계층 행동 데이터 기록 및 Agentic Evaluator
세션 녹화, 스크린샷, HTTP 트래픽, 에이전트 메시지, 브라우저 액션의 5가지 데이터를 동기화하여 기록한다. 이를 바탕으로 Claude Code 기반의 에이전트 평가기가 인간의 정답 궤적과 비교하여 단계별 성공 여부를 판정한다.
관련 Figure

일상 생활(Daily), 업무(Work), 개발(Dev) 등 다양한 도메인에 걸쳐 작업이 분포되어 있음을 보여준다. 일상 생활 카테고리가 52개로 가장 큰 비중을 차지하며 벤치마크의 실용적 성격을 강조한다.
153개 작업이 8개의 상위 카테고리와 15개의 하위 카테고리로 분류된 태스크 맵이다.
핵심 아이디어 이해하기
기존의 AI 에이전트 평가는 주로 미리 정의된 정적 HTML 파일이나 제한된 샌드박스 환경에서 이루어졌다. 이는 모델이 실제 웹사이트의 동적 JavaScript 렌더링, 쿠키 동의 팝업, 복잡한 다단계 인증 흐름을 마주했을 때 발생하는 변수들을 제대로 측정하지 못한다는 한계가 있다.
CLAWBENCH는 에이전트가 실제 운영 중인 웹사이트(Production sites)에서 직접 동작하게 함으로써 이 문제를 해결한다. 핵심 원리는 에이전트의 모든 브라우저 상호작용을 허용하되, 서버의 상태를 영구적으로 바꾸는 마지막 '제출(Submit)' 버튼 클릭에 해당하는 HTTP 요청만을 가로채어 분석하는 것이다. 이는 에이전트가 실제 환경의 복잡성을 모두 경험하게 하면서도 원치 않는 실제 결제나 주문이 발생하는 안전 사고를 방지한다.
결과적으로 이러한 접근은 에이전트가 단순히 정답 텍스트를 찾아내는 능력을 넘어, 실제 UI 요소를 정확히 조작하고 복잡한 폼을 채우며 네트워크 요청 수준에서 올바른 데이터를 전송하는지까지 검증할 수 있게 한다. 실험 결과, 기존 벤치마크에서 70% 이상의 성공률을 보이던 모델들도 CLAWBENCH에서는 33% 이하의 낮은 성적을 기록하며 실제 서비스 적용을 위한 기술적 격차를 명확히 드러냈다.
방법론
CLAWBENCH는 실제 웹 환경에서의 '쓰기' 작업을 안전하게 평가하기 위해 3단계 파이프라인을 구성한다. 첫째, 인간 작업자가 153개 작업에 대해 5계층 데이터를 포함한 정답 궤적(Ground-truth trajectory)을 생성한다. 둘째, 에이전트가 크롬 확장 프로그램이 설치된 브라우저에서 작업을 수행하며, 이때 CDP(Chrome DevTools Protocol) 기반 서버가 네트워크 트래픽을 모니터링하여 최종 제출 요청을 가로챈다.
가로채기 메커니즘은 인간 전문가가 미리 정의한 HTTP 엔드포인트, 메서드, 페이로드 스키마를 기준으로 작동한다. [에이전트의 클릭 액션 → 브라우저의 HTTP 요청 발생 → 인터셉터가 URL 패턴 매칭 → 요청 차단 및 페이로드 기록] 순으로 연산이 수행된다. 이를 통해 실제 주문은 발생하지 않으면서도 에이전트가 보낸 데이터가 정확한지 확인할 수 있는 숫자를 얻는다.
평가는 Agentic Evaluator가 수행한다. 에이전트의 5계층 기록과 인간의 정답 기록을 입력으로 받아 Claude Code 서브 에이전트가 단계별 정렬을 수행한다. [에이전트 궤적과 인간 궤적 비교 → 필수 필드 입력 및 액션 순서 검증 → 최종 페이로드의 스키마 일치 확인 → 이진 성공/실패 판정] 과정을 거쳐 결과의 타당성을 확보한다.
관련 Figure

인간이 설정한 작업과 검증 조건을 바탕으로 에이전트가 실제 브라우저에서 실행되며, 5가지 계층의 데이터를 기록하여 Agentic Evaluator가 최종 점수를 산출하는 과정을 설명한다. 특히 실행 단계에서 기록되는 데이터 종류를 명확히 보여준다.
CLAWBENCH의 전체 파이프라인을 Setup, Execution, Evaluation 단계로 나누어 보여주는 다이어그램이다.

에이전트와 인간의 액션 페이로드를 스키마 레벨에서 체크하여 정당성을 부여하는 과정을 보여준다. 출력 섹션에서 출발지, 도착지, 날짜 등 구체적인 필드 값이 일치하는지 확인하는 예시가 포함되어 있다.
평가 프로토콜의 입력, 평가기, 출력 구조를 상세히 보여주는 인포그래픽이다.
주요 결과
7개의 최첨단(Frontier) 모델을 대상으로 실험한 결과, Claude Sonnet 4.6이 33.3%의 성공률로 가장 높은 성능을 보였으며 GLM-5(24.2%), Gemini 3 Flash(19.0%)가 뒤를 이었다. GPT-5.4는 6.5%에 그쳐 실제 웹 작업의 난이도가 매우 높음을 보여주었다. 특히 OSWorld나 WebArena 같은 기존 벤치마크에서 65-75%의 성공률을 기록했던 모델들이 CLAWBENCH에서는 급격한 성능 저하를 보였다.
카테고리별 분석에서는 모델마다 강점이 다르게 나타났다. Claude Sonnet 4.6은 일상 생활(Daily), 금융(Finance), 학술(Academic) 분야에서 우세했으나, 업무(Work) 분야에서는 GLM-5가, 여행(Travel) 분야에서는 Gemini 3 Flash가 더 높은 점수를 기록했다. 이는 현재의 에이전트들이 모든 도메인에서 균일한 능력을 갖추지 못했음을 시사한다.
관련 Figure

기존 벤치마크(PinchBench, OSWorld 등)에서는 70-80% 이상의 높은 점수를 기록하던 모델이 CLAWBENCH에서는 33.3%로 급락함을 보여준다. 이는 기존 평가 방식이 포화 상태에 이르렀으며 CLAWBENCH가 새로운 도전 과제를 제시함을 입증한다.
기존 벤치마크와 CLAWBENCH에서 Claude-Sonnet-4.6 모델의 성능을 비교한 막대 그래프이다.
기술 상세
CLAWBENCH 아키텍처는 에이전트의 실행 환경과 평가 환경을 분리한다. 실행 환경은 Xvfb 가상 디스플레이에서 실행되는 크롬 브라우저와 이를 제어하는 OpenClaw 프레임워크로 구성된다. 핵심 기술 차별점은 5계층 기록 인프라로, 단순한 최종 상태 체크가 아닌 세션 리플레이, 단계별 스크린샷, HTTP 트래픽, 추론 로그, 로우레벨 브라우저 이벤트를 모두 동기화하여 수집한다는 점이다.
평가 알고리즘인 Agentic Evaluator는 인간의 시연 데이터를 '실행 가능한 명세서'로 활용한다. 모델이 생성한 궤적을 인간의 것과 비교할 때, 단순 텍스트 일치가 아닌 HTTP 페이로드 내의 필드 바인딩, 상호작용 순서, 터미널 제출 구조를 검증한다. 이는 에이전트가 정답에 도달하는 경로가 다양할 수 있다는 점을 고려하여, 최종적인 의도(Intent)와 데이터의 정확성에 집중하는 방식이다.
관련 Figure

Claude Code가 개인 정보 사용의 정확성, 폼 완료 및 제출 여부, CAPTCHA 시도 등을 규칙 기반으로 검증하는 과정을 나타낸다. 단순한 결과 비교가 아닌 다중 증거 계층을 활용한 교차 검증 방식을 설명한다.
Agentic Evaluator가 인간과 에이전트의 궤적을 비교하여 평가하는 내부 로직을 보여주는 다이어그램이다.
한계점
유료 구독이 필요한 서비스, 지리적으로 제한된 서비스, 또는 오프라인 상태가 된 웹사이트는 평가 대상에서 제외되었다. 또한 CAPTCHA 해결이나 전화 인증이 필요한 단계는 에이전트가 시도만 하면 통과한 것으로 간주하는 등 일부 제약 사항이 존재한다.
실무 활용
실제 웹사이트를 조작하는 AI 에이전트의 성능을 안전하게 테스트하고 싶은 개발자나 연구팀에게 유용하다. 특히 결제나 예약 시스템을 자동화하려는 기업에서 에이전트의 신뢰성을 검증하는 도구로 활용 가능하다.
- AI 에이전트의 실제 웹 UI 조작 및 폼 입력 정확도 벤치마킹
- 결제/예약 등 민감한 웹 작업 자동화 모델의 안전성 및 회귀 테스트
- 에이전트의 실패 원인을 HTTP 트래픽 및 스크린샷 수준에서 정밀 진단
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.