ClawMark: 멀티 턴, 멀티 데이, 멀티모달 동료 에이전트를 위한 리빙 월드 벤치마크

기존 AI 에이전트 평가는 단발성 작업에 치중되어 실제 사무 환경처럼 며칠에 걸쳐 상황이 변하고 다양한 파일 형식을 다루는 능력을 측정하기 어려웠다. 이 논문은 외부 환경이 스스로 변하는 동적 환경을 구축하여 에이전트가 인간 동료처럼 지속적으로 협업할 수 있는지 평가하는 새로운 기준을 제시한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

ClawMark 벤치마크 구축

13가지 전문 시나리오와 100개의 작업을 포함하며, 파일 시스템, 이메일, 캘린더, 지식 베이스, 스프레드시트 등 5가지 상태 저장 샌드박스 서비스를 통해 실제 업무 환경을 구현했다.

동적 환경 변화 도입

에이전트의 행동과 무관하게 외부에서 발생하는 명시적 이벤트(Loud events)와 비명시적 변화(Silent mutations)를 주입하여 에이전트의 적응력을 평가한다.

결정론적 규칙 기반 채점 시스템

LLM-as-judge 방식 대신 1,537개의 파이썬 체커를 사용하여 실행 후의 서비스 상태를 직접 검증함으로써 평가의 객관성과 재현성을 확보했다.

핵심 아이디어 이해하기

기존의 에이전트 벤치마크는 주로 정적인 상태에서 한 번의 세션으로 끝나는 '스냅샷' 방식의 평가에 머물러 있었다. 이는 Transformer 기반 모델이 주어진 컨텍스트 내에서 정답을 찾는 능력은 잘 측정하지만, 시간이 흐름에 따라 외부 정보가 업데이트되거나 이메일이 새로 도착하는 등 '동적인 상태 변화'를 추적하며 작업을 완수하는 능력은 제대로 평가하지 못한다는 한계가 있다.

ClawMark는 이를 해결하기 위해 '리빙 월드(Living-World)' 개념을 도입했다. 에이전트가 작업을 수행하는 도중에 외부 시스템이 독립적으로 변하도록 설계하여, 에이전트가 이전 턴에서 얻은 정보가 현재도 유효한지 매번 확인하고 갱신해야만 성공할 수 있도록 만들었다. 이는 딥러닝 모델이 단순히 고정된 임베딩 공간에서 정보를 추출하는 것을 넘어, 외부 환경과의 상호작용을 통해 상태(State)를 지속적으로 관리해야 함을 의미한다.

결과적으로 이 벤치마크는 에이전트가 며칠 동안 지속되는 긴 워크플로우를 유지하면서, 텍스트뿐만 아니라 이미지, 오디오, 비디오 등 멀티모달 증거를 통합하여 의사결정을 내릴 수 있는지를 엄격하게 검증한다. 이는 단순한 도구 사용 능력을 넘어 실제 인간 동료와 같은 수준의 업무 수행 능력을 요구한다.

방법론

ClawMark는 5가지 핵심 서비스(Docker 기반 파일 시스템, GreenMail SMTP/IMAP, Notion 호환 지식 베이스, Google Sheets 호환 스프레드시트, Radicale CalDAV 서버)가 통합된 격리된 샌드박스 환경에서 실행된다. 각 작업은 2~6턴으로 구성되며, 한 턴은 가상의 업무일 하루를 의미한다.

에이전트가 한 턴을 마치면 환경은 독립적으로 변화한다. 이때 'Loud events'는 에이전트에게 명시적으로 알림이 가지만, 'Silent mutations'는 알림 없이 서비스 내부 데이터만 변경된다. 에이전트는 매 턴 시작 시 [현재 상태 확인 → 도구 실행 → 결과 도출] 과정을 거쳐야 하며, 이전 턴의 캐시된 정보에만 의존할 경우 실패하도록 설계되었다.

채점은 실행 완료 후 1,537개의 Python 기반 결정론적 체커를 통해 이루어진다. 각 체커는 [샌드박스 내 최종 상태 값 추출] → [정답 기준값과 비교 연산] → [통과/실패 불리언 결과 산출] 과정을 거친다. 최종 점수는 각 체커의 가중치를 반영한 가중 점수(Weighted Score)와 모든 체커를 통과해야 인정되는 엄격한 작업 성공률(Task Success) 두 가지로 보고된다.

관련 Figure

#2Diagram
3일간의 업무 흐름을 시각화하여 명시적 이벤트와 알림 없는 변화(Silent mutation)가 어떻게 주입되는지 설명한다. 특히 'Red Line' 체커가 조기 승인을 방지하는 안전 장치로 작동하는 모습을 구체적으로 보여준다.
기업 화재 보험 청구 시나리오의 턴별 구조와 체커 작동 예시 다이어그램

주요 결과

Claude Sonnet 4.6, GPT-5.4(high), Gemini 3.1 Pro 등 7개의 최신 에이전트 시스템을 대상으로 실험한 결과, 가장 높은 가중 점수는 Claude Sonnet 4.6이 기록한 75.8점이었다. 그러나 모든 조건을 완벽히 충족해야 하는 엄격한 성공률(Task Success)에서는 Claude Opus 4.6이 20.0%로 가장 높았으며, 이는 복잡한 워크플로우를 끝까지 완수하는 것이 여전히 매우 어려운 과제임을 보여준다.

분석 결과, 에이전트들의 성능은 첫 번째 외부 환경 변화가 발생하는 2일 차에 급격히 하락하는 경향을 보였다. 특히 'Silent-change detection(알림 없는 변화 감지)' 실패율이 56.5%에 달해, 에이전트가 변화된 환경을 스스로 인지하고 정보를 갱신하는 능력이 가장 큰 병목 구간임이 확인되었다.

멀티모달 데이터 처리에서도 한계가 드러났다. 오디오 메모를 듣고 비디오 프레임에서 증거를 찾아 PDF 견적서와 대조하는 식의 복잡한 추론 체인에서 대부분의 모델이 실패했으며, 오직 GPT-5.4만이 특정 시나리오에서 이러한 교차 모달 추론에 성공하는 모습을 보였다.

관련 Figure

#1Chart
왼쪽 차트에서 Claude Sonnet 4.6이 가중 점수 1위를 차지했으나, 엄격한 성공률은 모든 모델이 20% 이하로 낮음을 보여준다. 오른쪽 도넛 차트는 보험, 의료, 법률 등 다양한 전문 분야에 걸쳐 작업이 고르게 분포되어 있음을 나타낸다.
ClawMark 리더보드 결과와 13개 시나리오별 작업 분포를 보여주는 차트

#4Chart
모든 모델이 첫 번째 환경 변화가 발생하는 Day 2에 성능이 크게 하락하는 것을 시각적으로 증명한다. 이는 에이전트가 변화하는 환경에 적응하는 것이 가장 어려운 과제임을 뒷받침한다.
3일간의 작업 진행에 따른 모델별 평균 점수 변화 추이 그래프

기술 상세

ClawMark 아키텍처는 에이전트 프레임워크와 독립적으로 작동하도록 설계된 'Harness-agnostic' 구조를 채택했다. 모든 작업은 단일 task.py 파일과 턴별 주입 레이어(inject layers)로 정의되며, 이는 Docker-compose를 통해 격리된 네트워크 환경에서 실행된다.

기술적 차별점은 'Red-line constraints'의 도입이다. 이는 데이터 유출, 승인 전 조기 결제 등 에이전트가 절대 해서는 안 되는 행동을 정의한 55개의 특수 체커로, 이를 위반할 경우 전체 작업 점수가 크게 깎이도록 설계되어 에이전트의 안전성과 준수 능력을 연구자가 정밀하게 모니터링할 수 있게 한다.

구현 측면에서는 재현성을 위해 동일한 환경에서 두 번의 독립적인 실행을 거쳐 비트 단위로 일치하는(bit-identical) 결과가 나올 때만 벤치마크 작업으로 확정하는 엄격한 릴리스 게이트(Release Gate) 프로세스를 적용했다.

관련 Figure

#3Diagram
작성, 증거 수집, 리뷰 루프, 릴리스 게이트로 이어지는 엄격한 데이터 생성 과정을 설명한다. 특히 재현성을 보장하기 위해 두 모델의 실행 결과가 일치해야 통과되는 과정을 강조한다.
ClawMark 벤치마크 구축 파이프라인의 4단계 과정

#5Diagram
task.py 파일이 어떻게 런타임 객체로 변환되고, 오케스트레이터가 샌드박스 내에서 에이전트와 상호작용하며 최종적으로 체커 시스템이 결과를 도출하는지 기술적 흐름을 보여준다.
하나의 작업이 정의되고 실행되어 채점되는 전체 시스템 아키텍처

한계점

현재 벤치마크는 100개의 작업으로 규모가 다소 제한적이며, 에이전트의 실행 비용이나 토큰 효율성에 대한 직접적인 페널티는 점수에 포함되지 않았다. 또한 특정 시나리오(예: EDA)는 단일 작업으로만 구성되어 있어 통계적 유의성을 확보하기 위해 더 많은 시나리오 확장이 필요하다.

실무 활용

실제 기업 환경에서 LLM 에이전트를 도입하려는 개발자들에게 에이전트의 신뢰성과 안전성을 검증할 수 있는 엄격한 테스트베드를 제공한다.

기업용 AI 비서의 다일간 일정 관리 및 이메일 대응 능력 검증
보험 청구 심사 등 멀티모달 증거 자료(사진, 문서, 로그) 통합 분석 에이전트 평가
복잡한 데이터 수정이 빈번한 스프레드시트 및 지식 베이스 관리 자동화 도구 테스트

코드 공개 여부: 공개

코드 저장소 보기

키워드

Agent(에이전트)Benchmark(벤치마크)Multimodal(멀티모달)Dynamic Environment(동적 환경)LLM(대형 언어 모델)

ClawMark: 멀티 턴, 멀티 데이, 멀티모달 동료 에이전트를 위한 리빙 월드 벤치마크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

ClawMark 벤치마크 구축

동적 환경 변화 도입

에이전트의 행동과 무관하게 외부에서 발생하는 명시적 이벤트(Loud events)와 비명시적 변화(Silent mutations)를 주입하여 에이전트의 적응력을 평가한다.

결정론적 규칙 기반 채점 시스템

LLM-as-judge 방식 대신 1,537개의 파이썬 체커를 사용하여 실행 후의 서비스 상태를 직접 검증함으로써 평가의 객관성과 재현성을 확보했다.

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

실제 기업 환경에서 LLM 에이전트를 도입하려는 개발자들에게 에이전트의 신뢰성과 안전성을 검증할 수 있는 엄격한 테스트베드를 제공한다.

기업용 AI 비서의 다일간 일정 관리 및 이메일 대응 능력 검증
보험 청구 심사 등 멀티모달 증거 자료(사진, 문서, 로그) 통합 분석 에이전트 평가
복잡한 데이터 수정이 빈번한 스프레드시트 및 지식 베이스 관리 자동화 도구 테스트

코드 공개 여부: 공개

코드 저장소 보기

키워드

Agent(에이전트)Benchmark(벤치마크)Multimodal(멀티모달)Dynamic Environment(동적 환경)LLM(대형 언어 모델)

ClawMark: 멀티 턴, 멀티 데이, 멀티모달 동료 에이전트를 위한 리빙 월드 벤치마크

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

ClawMark: 멀티 턴, 멀티 데이, 멀티모달 동료 에이전트를 위한 리빙 월드 벤치마크

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드