본문으로 건너뛰기

execution-layer-benchmark

실행 계층 벤치마크

중급

에이전트의 실제 소프트웨어 조작 능력만을 평가하기 위해 목적, 초기 상태, 허용된 동작, 최종 상태 검증기를 동일하게 맞춘 평가 집합이다. 이 벤치마크는 상호작용 모달리티 차이 외 다른 요인을 제거하여 GUI와 CLI의 실행 병목을 직접 비교할 수 있게 한다. 논문에서는 440개 데스크톱 작업으로 구성된 실행층 벤치마크를 구축해 실험을 수행했다.