핵심 요약
LLM 에이전트의 성능을 평가하기 위한 환경 구축은 그동안 수작업에 의존해 비용이 높고 확장이 어려웠다. 이 논문은 자연어 설명만으로 검증된 에이전트 실행 환경을 자동 생성하는 파이프라인을 제안하여 평가의 확장성과 연속성을 확보했다.
왜 중요한가
LLM 에이전트의 성능을 평가하기 위한 환경 구축은 그동안 수작업에 의존해 비용이 높고 확장이 어려웠다. 이 논문은 자연어 설명만으로 검증된 에이전트 실행 환경을 자동 생성하는 파이프라인을 제안하여 평가의 확장성과 연속성을 확보했다.
핵심 기여
ClawEnvKit 자동 생성 파이프라인
자연어 설명을 입력받아 Parser, Generator, Validator의 3단계 모듈을 거쳐 실행 가능한 에이전트 환경(Task, Tool, Scoring)을 자동으로 생성한다.
Auto-ClawEval 대규모 벤치마크 구축
ClawEnvKit을 활용해 24개 카테고리, 1,040개의 환경으로 구성된 최초의 대규모 Claw 계열 에이전트 전용 벤치마크를 구축했다.
실시간 라이브 평가(Live Evaluation) 구현
고정된 데이터셋에 의존하지 않고 사용자가 원하는 능력을 자연어로 묘사하면 즉석에서 검증된 환경을 생성해 에이전트를 평가하는 연속적 프로세스를 지원한다.
핵심 아이디어 이해하기
기존의 에이전트 평가는 사람이 직접 시나리오를 쓰고 채점 로직을 코딩해야 했기에 데이터 오염(Data Leakage)에 취약하고 새로운 API 환경에 대응하기 늦었다. ClawEnvKit은 환경의 상태 전이(State Transition)를 일일이 정의하는 대신, 에이전트가 수행할 작업(P), 사용할 도구 인터페이스(M), 그리고 이를 검증할 평가 함수(C)를 선언적으로 분리하여 정의한다.
이러한 선언적 분리는 LLM이 복잡한 실행 의미론을 완벽히 이해하지 못하더라도 유효한 (P, M, C) 세트를 생성할 수 있게 한다. 생성된 환경은 격리된 Docker 컨테이너 내에서 실행되며, 실제 서비스가 아닌 Mock 서비스를 통해 에이전트의 도구 호출 결과와 내부 상태 변화를 추적한다.
결과적으로 수백 시간이 걸리던 벤치마크 구축 작업을 단 몇 분의 자동화 과정으로 단축했으며, 인간이 작성한 환경보다 더 높은 명확성과 일관성을 수치적으로 입증했다.
방법론
ClawEnvKit은 세 가지 핵심 모듈로 구성된다. 첫째, Parser는 사용자의 자연어 요청을 분석해 에이전트가 수행할 구체적인 의도 단위(Intent Units)인 액션, 객체, 제약 조건을 추출한다. 둘째, Generator는 추출된 의도를 바탕으로 구체적인 Task YAML, 필요한 Mock 서비스 API, 그리고 초기 데이터(Fixture)를 생성한다. 셋째, Validator는 생성된 환경이 실제로 풀 수 있는 문제인지(Feasibility), 요청한 내용이 모두 포함되었는지(Coverage), 구조적으로 결함이 없는지(Format)를 검증한다.
에이전트 실행은 네트워크가 차단된 독립적인 Docker 컨테이너에서 수행된다. 이때 Harness Preparation 단계를 통해 OpenClaw, MCP server, SKILL.md 등 다양한 에이전트 인터페이스 규격을 지원한다. 실행 중 발생하는 모든 API 호출은 서버 측 Audit Log에 기록되어 사후 평가의 근거가 된다.
채점 엔진(GradingEngine)은 5단계 절차를 거친다. 먼저 Safety Gate를 통해 금지된 행동 여부를 확인하고, 이후 15가지 체크 타입을 활용해 Audit Log(수행 동작), Output(최종 답변), Filesystem(생성 파일)을 다각도로 검증한다. 최종 점수는 [0.8 * 완료도 + 0.2 * 강건성]에 안전성 계수를 곱하여 산출한다.
주요 결과
Auto-ClawEval 벤치마크를 통해 4개 모델 패밀리와 8개 에이전트 하네스를 평가한 결과, 하네스 엔지니어링이 성능을 최대 15.7%p 향상시키는 핵심 요소임을 확인했다. 특히 NemoClaw와 같은 구조화된 하네스가 단순 ReAct 방식보다 월등한 성능을 보였다.
품질 측면에서 자동 생성된 환경은 인간이 작성한 환경(Claw-Eval) 대비 타당성(Validity) 100%를 유지하면서도 일관성(Coherence)은 0.51에서 0.59로, 명확성(Clarity)은 3.38에서 3.54로 향상되었다. 구축 비용은 인간 작업 시 208시간이 소요되던 분량을 단 18시간(API 비용 약 80달러) 만에 완료하여 약 13,800배의 효율성을 달성했다.
또한 1,040개의 대규모 환경과 104개의 축소판(Mini) 환경 간의 점수 차이가 2% 미만으로 나타나, 자동 생성된 환경이 통계적으로 신뢰할 수 있는 평가 지표임을 입증했다.
관련 Figure

NemoClaw와 같은 SKILL.md 기반 하네스가 더 많은 도구 호출을 수행하면서도 가장 높은 성능(Pareto frontier)을 기록함을 보여준다. 이는 단순한 ReAct 루프보다 구조화된 인터페이스가 에이전트의 작업 완수에 효과적임을 시사한다.
에이전트 하네스 유형별 도구 호출 횟수 대비 평균 성능 차트

GPT-5.4가 가장 높은 성능을 보이지만 비용이 높고, GPT-5-nano는 매우 저렴한 비용으로도 상위권 성능을 유지하여 경제적인 선택지임을 보여준다. MiniMax-M2.7 등 일부 모델은 비용 대비 성능 효율이 낮게 나타났다.
모델별 작업당 비용 대비 평균 성능 분포도
기술 상세
ClawEnvKit 아키텍처는 선언적 환경 명세(Declarative Specification)와 결정론적 검증(Deterministic Verification)의 분리를 핵심으로 한다. 환경 E는 (P, M, C)의 튜플로 정의되며, 여기서 C는 에이전트의 궤적(Trajectory)과 감사 로그(Audit Log)를 입력으로 받아 [0, 1] 사이의 값을 출력하는 평가 함수들의 집합이다.
구현 측면에서 15가지의 체크 타입(audit_action_exists, file_hash_equals 등)을 제공하여 LLM Judge의 비결정론적 요소를 최소화한다. LLM Judge의 가중치는 전체의 55%로 제한하여 평가의 객관성을 확보했다. 또한 에이전트의 강건성을 측정하기 위해 API 호출의 25%에 무작위 에러를 주입하고, 에이전트가 이를 복구하는지 측정하는 메커니즘을 포함한다.
데이터 오염 문제를 해결하기 위해 고정된 데이터셋이 아닌, 서비스 순서 셔플링(Service-order shuffling), 액션 로테이션(Focus-action rotation), 중복 제거(Deduplication) 메커니즘을 통해 매번 새로운 환경을 생성하도록 설계되었다.
한계점
현재 시스템은 결정론적인 Mock 서비스에 의존하고 있어 실제 운영 환경의 복잡한 API 지연, 인증 흐름, 스키마 변경 등을 완벽히 반영하지 못한다. 또한 20회 내외의 도구 호출로 끝나는 단기 작업에 최적화되어 있어, 수 시간 이상 지속되는 장기 작업(Long-horizon tasks) 생성 및 평가는 향후 과제로 남아있다.
실무 활용
에이전트 개발 팀이 새로운 기능을 배포하기 전, 맞춤형 시나리오를 즉석에서 생성해 성능을 검증하고 취약점을 파악하는 데 즉시 활용 가능하다.
- 사내 특정 API 도구 사용 능력을 검증하기 위한 맞춤형 에이전트 벤치마크 자동 생성
- 에이전트의 취약한 작업 유형을 분석하여 이를 보완하기 위한 적응형 학습 데이터 생성
- 다양한 에이전트 프레임워크(MCP, Plugin 등) 간의 성능 비교 및 최적 하네스 선정
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

사용자가 GitHub 이슈 관리 워크플로우를 설명하면, 시스템이 필요한 API 엔드포인트를 제안하고 사용자의 확인을 거쳐 즉석에서 검증된 환경을 구축하는 과정을 시각화했다. 이는 Live Evaluation의 실제 작동 방식을 설명한다.
사용자와 시스템 간의 온디맨드 환경 생성 대화 예시
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.