아타리 100k
강화학습 알고리즘의 효율성을 측정하기 위한 벤치마크로, 단 10만 번의 상호작용(약 2시간 분량의 게임 플레이)만으로 모델의 성능을 평가한다. 데이터 효율성이 극도로 요구되는 환경에서 모델의 학습 능력을 검증하는 표준으로 쓰인다.