핵심 요약
기존 AI 에이전트는 로컬 파일 시스템이나 복잡한 도구를 사용하는 실제 업무 환경에서 성능이 급격히 저하되는 한계가 있다. ClawGym은 이러한 환경에 특화된 13.5K개의 대규모 학습 데이터와 정밀한 평가 벤치마크를 제공하여, 소형 모델로도 고성능 개인용 에이전트를 구현할 수 있는 길을 열었다.
왜 중요한가
기존 AI 에이전트는 로컬 파일 시스템이나 복잡한 도구를 사용하는 실제 업무 환경에서 성능이 급격히 저하되는 한계가 있다. ClawGym은 이러한 환경에 특화된 13.5K개의 대규모 학습 데이터와 정밀한 평가 벤치마크를 제공하여, 소형 모델로도 고성능 개인용 에이전트를 구현할 수 있는 길을 열었다.
핵심 기여
ClawGym-SynData 데이터셋 구축
사용자 페르소나 기반의 의도와 기술 중심 작업을 결합하여 13.5K개의 실행 가능한 Claw 스타일 작업 데이터를 합성했다. 실제와 유사한 모의 워크스페이스와 하이브리드 검증 메커니즘을 포함하여 데이터의 신뢰성을 확보했다.
ClawGym-Agents 모델 학습
합성된 데이터를 바탕으로 Supervised Fine-tuning(SFT)을 수행하여 Claw 환경에 최적화된 모델군을 개발했다. 특히 가벼운 샌드박스 병렬 파이프라인을 통한 강화학습(RL) 가능성을 탐색하여 추가적인 성능 향상을 입증했다.
ClawGym-Bench 평가 벤치마크
자동화된 필터링과 인간-LLM 협업 리뷰를 거쳐 엄선된 200개의 고품질 인스턴스로 구성된 벤치마크를 제안했다. 이는 파일 조작, 데이터 분석 등 6개 카테고리에서 에이전트의 실무 능력을 정밀하게 측정한다.
관련 Figure

시스템 인프라(12.5%), 소프트웨어 개발(11.8%) 등 다양한 시나리오와 파일 다운로드, 웹페이지 추출 등 실제 업무에 필요한 행동들이 고르게 분포되어 있음을 보여준다. 이는 데이터셋이 특정 작업에 편중되지 않고 높은 다양성을 확보했음을 입증한다.
ClawGym-SynData의 시나리오 카테고리 및 원자적 행동 분포 차트
핵심 아이디어 이해하기
기존의 AI 에이전트 학습은 주로 정적인 텍스트 추론이나 구조화된 웹 브라우징에 집중되어 있어, 로컬 파일 시스템과 상호작용하며 상태를 업데이트해야 하는 실제 업무 환경(Claw-style)에서는 한계가 있다. Transformer 기반 모델들이 다음 토큰을 예측하는 데는 능숙하지만, 여러 단계의 도구 실행 결과가 누적되는 워크스페이스의 상태 변화를 이해하고 오류를 복구하는 능력은 부족하기 때문이다.
ClawGym은 이 문제를 해결하기 위해 '이중 경로 데이터 합성' 전략을 사용한다. 상위 수준의 사용자 페르소나에서 작업을 생성하는 Top-down 방식과 구체적인 실행 기술들을 조합하는 Bottom-up 방식을 결합하여, 실제 업무의 복잡성과 실행 가능성을 동시에 확보한다. 이는 모델이 단순한 명령어 이행을 넘어, 환경의 피드백을 받아 다음 행동을 결정하는 폐쇄 루프(Closed-loop) 제어 능력을 학습하게 한다.
결과적으로 모델은 임베딩된 지식에만 의존하지 않고, 실행 결과로 변하는 파일 상태나 도구의 에러 메시지를 실시간으로 해석하여 목표를 달성한다. 이러한 접근은 모델이 복잡한 워크플로 내에서 논리적 일관성을 유지하며 장기적인 의존성을 관리할 수 있도록 돕는다.
방법론
전체 프레임워크는 데이터 합성(SynData), 모델 학습(Agents), 성능 평가(Bench)의 세 단계로 구성된다. 데이터 합성 단계에서는 10억 개의 페르소나 프로필과 3만 개의 기술 단위를 활용하여 다양한 시나리오를 생성하고, GPT-5를 사용하여 각 작업에 필요한 모의 파일과 검증용 코드를 자동으로 생성한다.
학습 단계에서는 OpenClaw 하네스를 활용한 Black-box Rollout 전략을 채택한다. MiniMax-M2.5와 GLM-5.1을 교사 모델로 사용하여 수집한 상호작용 궤적 중, 하이브리드 검증기 점수가 임계값(0.5)을 넘는 고품질 데이터 24.5K개를 선별하여 SFT를 진행한다. [궤적 데이터 입력 → 보상 임계값 필터링 → SFT 학습 → 에이전트 정책 갱신] 과정을 통해 모델은 환경 친화적인 행동 패턴을 익힌다.
강화학습 단계에서는 GRPO 알고리즘을 사용하며, 각 작업을 독립된 Docker 샌드박스에서 병렬로 실행하는 가벼운 파이프라인을 구축했다. [에이전트 행동 출력 → 샌드박스 내 도구 실행 → 코드 검증기 점수 산출 → 보상 신호 피드백] 순으로 연산하여 별도의 보상 모델 없이도 성능을 최적화한다.
주요 결과
메인 벤치마크인 ClawGym-Bench에서 ClawGym-30A3B 모델은 평균 56.82%의 점수를 기록하며, 기반 모델인 Qwen3-30A3B(45.11%) 대비 약 26%의 성능 향상을 보였다. 특히 훨씬 더 큰 규모의 모델인 Qwen3-235A23B(54.48%)보다 높은 성능을 기록하여 고품질 합성 데이터의 효율성을 증명했다.
외부 벤치마크인 PinchBench에서도 ClawGym-30A3B는 86.00점을 기록하며 Qwen3-30A3B(55.60점) 대비 54.68% 향상된 결과를 나타냈다. 이는 합성된 데이터로 학습한 에이전트가 특정 분포에 과적합되지 않고 범용적인 에이전트 능력을 습득했음을 시사한다.
Ablation Study 결과, 페르소나 기반 합성(Top-down)과 기술 기반 합성(Bottom-up)을 혼합했을 때 가장 높은 성능이 나타났다. 또한 보상 임계값을 0.5로 설정했을 때 데이터의 품질과 다양성 사이의 최적의 균형이 달성됨을 확인했다.
관련 Figure

ClawGym-Bench와 PinchBench 모두에서 학습 데이터 규모가 커질수록 성능이 향상되다가 에포크 3 부근에서 정점을 찍는 것을 보여준다. 이는 합성된 궤적 데이터의 품질이 실제 성능 향상에 직결됨을 수치로 증명한다.
학습 데이터 규모에 따른 SFT 모델의 성능 변화 그래프
기술 상세
ClawGym의 핵심 아키텍처는 환경 접지형(Environment-grounded) 지시 이행에 초점을 맞춘다. 에이전트의 입력은 사용자 지시(p)와 초기 환경 상태(s0)로 구성되며, 출력은 행동(A)과 관찰(O)의 세그먼트 단위 궤적(xi)이다. 이는 표준적인 행동-관찰 교차 패턴뿐만 아니라, 피드백을 받기 전 여러 도구를 연속 실행하는 비정형 패턴까지 수용한다.
검증 메커니즘은 결정론적인 Code-based Checker와 정성적인 Rubric-based Verifier를 0.7:0.3 비율로 결합한 하이브리드 방식을 사용한다. 코드 검증기는 파일 존재 여부나 데이터 스키마 정답률을 확인하고, 루브릭 검증기는 LLM을 통해 결과물의 톤이나 논리적 완결성을 평가한다. [코드 점수 * 0.7 + 루브릭 점수 * 0.3 → 최종 보상] 계산을 통해 객관적 정확성과 주관적 품질을 동시에 확보한다.
학습 시에는 YaRN 기법을 적용하여 Qwen3-8B의 컨텍스트 윈도우를 32K에서 64K로 확장함으로써, 장기 실행 궤적에서의 의존성 문제를 해결했다. 또한 Multi-turn Loss Masking 전략을 통해 환경이 생성한 피드백 토큰은 손실 계산에서 제외하고, 모델이 생성한 추론 및 도구 호출 부분에만 최적화를 집중했다.
관련 Figure

강력한 모델(GPT-5.4)은 탐색-검사-계산-검증의 단계적 파이프라인을 구축하여 성공하는 반면, 약한 모델은 초기 오류 복구 후 신뢰할 수 없는 계산 과정을 거쳐 실패하는 양상을 보여준다. 이는 단순한 도구 호출을 넘어선 워크플로 구성 능력의 중요성을 강조한다.
에이전트의 도구 사용 적절성 사례 비교 (GPT-5.4 vs 30A3B)
한계점
본 연구는 주로 최종 상태의 정확성에 초점을 맞추고 있으며, 에이전트 행동의 안전성, 효율성 및 실시간 오류 복구 과정에 대한 세밀한 평가는 향후 과제로 남겨두고 있다.
실무 활용
개인용 컴퓨터 환경에서 복잡한 작업을 수행하는 AI 비서를 개발하려는 기업이나 연구자에게 즉시 적용 가능한 프레임워크와 데이터를 제공한다.
- 로컬 파일 시스템 내의 대량의 CSV 데이터를 분석하고 요약 보고서를 자동 생성하는 에이전트
- 소프트웨어 개발 환경에서 여러 파일을 참조하여 버그를 수정하고 테스트를 실행하는 코딩 보조 도구
- 이메일, 일정, 문서를 연동하여 복합적인 사무 행정 업무를 처리하는 개인용 AI 비서
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.