오에스 월드
AI가 실제 컴퓨터 환경에서 스크린샷과 마우스, 키보드 입력을 통해 작업을 수행하는 능력을 평가한다. 운영체제 전반을 탐색하고 복잡한 소프트웨어를 조작하는 에이전트 성능의 핵심 지표이다.