터미널 벤치마크
AI 모델의 터미널 조작 및 시스템 관리 능력을 평가하는 에이전트 전용 벤치마크 도구이다. 실제 개발 환경과 유사한 복잡한 명령 실행 능력을 측정하여 모델의 실무 적용 가능성을 판단하는 척도로 쓰인다.
모델 변경 없이 코딩 에이전트 성능을 13.7% 끌어올린 하네스 엔지니어링의 비밀
코딩 에이전트 전쟁: Claude Opus 4.6 vs GPT-5.3-Codex