실행 기반 평가
명시된 작업을 실제로 터미널 환경에서 실행하고 최종 산출물을 자동 검증기로 확인하여 성공 여부를 결정하는 평가 방식이다. 이 방식은 에이전트의 명령 실행 능력, 도구 호출, 파일 조작, 검증 가능한 결과 산출을 종합적으로 측정하며 시나리오별 최종 환경 상태를 기준으로 보상을 산정한다. TUA-Bench에서는 각 과제별로 Dockerfile과 인-환경 verifier를 포함해 동일한 초기 상태에서 재현 가능한 실행을 통해 성능을 산정한다.