오픈 월드 평가
통제된 벤치마크 환경이 아닌, 실제 복잡한 환경에서 에이전트의 성능을 평가하는 방식. 긴 시간 동안 자율적으로 작업을 수행하는 에이전트의 능력을 검증하기 위해 필요하며, 방법론적 엄밀성과 독립적 검증이 요구된다.