ESI-BENCH
에이전트가 물리적 환경에서 이동, 관찰, 조작을 통해 공간적 추론 능력을 평가하는 벤치마크. 행동의 결과를 예측하지 못하는 '행동 맹목(action blindness)' 문제를 측정한다.