핵심 요약
기존 AI 에이전트 벤치마크가 이메일 관리와 같은 단순 비서 업무에 치중되어 실제 고도의 지적 능력이 필요한 학업 현장의 요구를 반영하지 못한다는 한계를 지적한다. 대학생들이 직접 실패를 경험한 80개의 복잡한 과제를 통해 에이전트의 도메인 지식과 장기 추론 능력을 엄격하게 평가할 수 있는 새로운 기준을 제시한다.
왜 중요한가
기존 AI 에이전트 벤치마크가 이메일 관리와 같은 단순 비서 업무에 치중되어 실제 고도의 지적 능력이 필요한 학업 현장의 요구를 반영하지 못한다는 한계를 지적한다. 대학생들이 직접 실패를 경험한 80개의 복잡한 과제를 통해 에이전트의 도메인 지식과 장기 추론 능력을 엄격하게 평가할 수 있는 새로운 기준을 제시한다.
관련 Figure

단순한 이메일 정렬이나 일정 예약과 같은 비서 업무(Assistant-level)와 로봇 시뮬레이션, GPU 기반 RL 학습 등 복잡한 학술 업무(Academic-level)의 차이를 시각적으로 보여준다. AcademiClaw가 지향하는 고난도 작업의 범위를 명확히 정의한다.
기존 Claw-Eval과 AcademiClaw의 작업 복잡도 비교 다이어그램
핵심 기여
AcademiClaw 벤치마크 구축
대학생들의 실제 학업 워크플로우에서 추출한 25개 이상의 전문 도메인, 80개의 복잡한 장기 호라이즌 과제로 구성된 이국어(영어/중국어) 벤치마크를 구축했다.
GPU 집약적 과제 포함
기존 에이전트 벤치마크에는 없었던 CUDA GPU 실행이 필요한 16개의 과제를 포함하여 머신러닝 학습 및 배포 능력을 직접 평가한다.
다차원 평가 프레임워크 설계
단순 통과 여부를 넘어 패턴 매칭, 코드 실행, LLM-as-Judge, Vision LLM 등 6가지 기법을 결합한 다차원 루브릭과 5개 카테고리의 안전성 감사 시스템을 도입했다.
핵심 아이디어 이해하기
기존 에이전트 평가는 주로 단순한 API 호출이나 정해진 템플릿을 따르는 Assistant-level 작업에 머물러 있었다. 이는 모델이 복잡한 도메인 지식을 활용해 여러 단계의 추론을 이어가는 능력을 측정하기에 부족하다는 한계가 있다. AcademiClaw는 이러한 한계를 극복하기 위해 실제 사용자가 해결하지 못한 문제를 수집하는 Bottom-up 방식을 채택했다.
이 벤치마크는 에이전트가 단순히 코드를 작성하는 것을 넘어, Docker 샌드박스 환경 내에서 실제 GPU 자원을 할당받아 딥러닝 모델을 학습시키거나 복잡한 시스템의 버그를 수정하도록 요구한다. 이는 에이전트가 환경과 상호작용하며 상태를 변화시키고, 그 결과를 스스로 검증해야 하는 실제 연구 환경의 메커니즘을 그대로 반영한다.
결과적으로 토큰 소모량과 결과물의 품질 사이에 상관관계가 거의 없다는 사실을 밝혀냈으며, 이는 현재 에이전트들이 단순히 많이 생각한다고 해서 문제를 잘 푸는 것이 아니라 효율적인 추론 경로를 찾는 능력이 부족함을 시사한다.
방법론
80개의 과제는 대학생들이 직접 제출한 230개의 후보 중 전문가 리뷰를 거쳐 선정됐다. 각 과제는 프롬프트 명확성, 루브릭 정확성, 재현성, 난이도 보정, 도메인 균형이라는 5가지 차원에서 엄격하게 검증됐다.
평가 시스템은 격리된 Docker 컨테이너 내에서 실행된다. 에이전트는 파일 읽기/쓰기, 셸 실행, 웹 검색, 헤드리스 브라우저 자동화 도구를 사용하여 자율적으로 과제를 수행한다. 수행이 완료되면 파일 시스템의 스냅샷을 찍어 이전 상태와 비교하는 방식으로 에이전트의 기여분을 추출한다.
최종 점수는 0-100점 사이로 산출되며, 75점 이상을 Pass로 정의한다. 평가 루브릭은 정규 표현식을 활용한 패턴 매칭, 유닛 테스트를 포함한 코드 실행, LLM-as-Judge를 통한 정성 평가, Vision LLM을 이용한 시각적 결과물 비교 등 6가지 기술을 과제 특성에 맞춰 조합하여 적용한다.
관련 Figure

학생들의 과제 제출, 전문가의 5가지 차원 리뷰 및 정제, 그리고 최종 80개 과제 선정으로 이어지는 Bottom-up 수집 과정을 설명한다. 데이터의 신뢰성과 난이도 조절 방식을 입증한다.
학생 기여부터 최종 벤치마크 구축까지의 3단계 파이프라인
주요 결과
Claude Opus 4.6, GPT-5.4 등 6개의 최첨단 모델을 대상으로 실험한 결과, 가장 우수한 모델인 Claude Opus 4.6조차 55%의 Pass Rate를 기록하는 데 그쳤다. 특히 올림피아드 수준의 수학이나 복잡한 시스템 디버깅 과제에서는 모든 모델이 고전하는 양상을 보였다.
모델별 행동 양식 분석을 통해 세 가지 유형을 정의했다. Claude Opus 4.6은 파일 읽기 비중이 높은 'Read-first' 전략으로 가장 높은 점수를 얻었으며, Gemini 3.1 Pro는 실행 횟수가 압도적으로 많은 'Execute-first' 성향을 보였으나 효율성은 낮았다. GPT-5.4는 최소한의 도구 호출로 내부 추론에 집중하는 'Minimalist' 성향을 나타냈다.
안전성 평가에서는 Anthropic 계열 모델이 경계 준수(Boundary Compliance) 측면에서 가장 우수한 성적을 거둔 반면, Gemini와 Qwen 모델은 지정된 작업 디렉토리를 벗어나는 등의 심각한 위반 사례가 다수 발견되어 기술적 성능과 안전성 사이의 괴리를 보여주었다.
기술 상세
AcademiClaw의 아키텍처는 2계층 Docker 이미지 구조를 기반으로 한다. 기본 CPU/GPU 이미지를 바탕으로 각 과제별 의존성(PyTorch, JDK, LaTeX 등)을 추가한 Per-query 이미지를 생성하여 실행 환경의 일관성을 보장한다.
수학적/알고리즘적 검증을 위해 AST(Abstract Syntax Tree) 파싱을 도입하여 에이전트가 작성한 코드의 구조적 특성을 분석한다. 예를 들어 특정 라이브러리 함수를 적절히 호출했는지, 알고리즘의 핵심 로직이 포함되었는지를 정교하게 체크한다.
안전성 감사는 5가지 리스크 카테고리(파괴적 작업, 정보 유출, 경계 준수, 권한 상승, 공급망 리스크)를 정의하고, 규칙 기반 탐지기와 LLM 검증기를 결합하여 에이전트의 도구 호출 궤적을 실시간으로 모니터링한다. 이는 에이전트가 자율적으로 동작할 때 발생할 수 있는 잠재적 위험을 정량화하는 데 기여한다.
관련 Figure

환경 설정, 에이전트의 도구 활용 실행, 그리고 6가지 스코어링 기법을 통한 평가 단계를 상세히 묘사한다. 특히 안전성 점수와 궤적 로깅이 어떻게 통합되는지 보여준다.
Docker 샌드박스 내에서의 에이전트 실행 및 다차원 평가 프로세스
한계점
현재 과제 세트가 단일 대학의 컴퓨터공학 전공 학생들로부터 수집되어 학문적 다양성이 제한적일 수 있다. 또한 모든 결과가 단일 시도(Single-attempt) 평가에 기반하고 있어 에이전트의 피드백 학습 능력을 충분히 반영하지 못했을 가능성이 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.