터미널벤치
AI 에이전트가 실제 터미널 환경에서 명령어를 실행하고 코드를 수정하며 문제를 해결하는 능력을 평가하는 벤치마크이다. 파일 시스템 조작, 라이브러리 설치, 디버깅 등 실무적인 엔지니어링 역량을 측정하는 데 특화되어 있다.