METR 타임 호라이즌
METR(Model Evaluation and Threat Research)에서 개발한 벤치마크로, 모델이 자율적으로 복잡한 작업을 수행하는 능력을 시간과 자원 관점에서 측정한다.
지능 수율(IY)의 시대: 더 적은 연산으로 더 어려운 문제를 푸는 AI 모델들