METR 타임 호라이즌
METR(Model Evaluation and Threat Research)에서 개발한 벤치마크로, 모델이 자율적으로 복잡한 작업을 수행하는 능력을 시간과 자원 관점에서 측정한다.