execution-layer-benchmark
실행 계층 벤치마크
에이전트의 실제 소프트웨어 조작 능력만을 평가하기 위해 목적, 초기 상태, 허용된 동작, 최종 상태 검증기를 동일하게 맞춘 평가 집합이다. 이 벤치마크는 상호작용 모달리티 차이 외 다른 요인을 제거하여 GUI와 CLI의 실행 병목을 직접 비교할 수 있게 한다. 논문에서는 440개 데스크톱 작업으로 구성된 실행층 벤치마크를 구축해 실험을 수행했다.
실행 계층 벤치마크
에이전트의 실제 소프트웨어 조작 능력만을 평가하기 위해 목적, 초기 상태, 허용된 동작, 최종 상태 검증기를 동일하게 맞춘 평가 집합이다. 이 벤치마크는 상호작용 모달리티 차이 외 다른 요인을 제거하여 GUI와 CLI의 실행 병목을 직접 비교할 수 있게 한다. 논문에서는 440개 데스크톱 작업으로 구성된 실행층 벤치마크를 구축해 실험을 수행했다.