OSWorld 검증 벤치마크
운영체제 환경에서 모델이 실제로 컴퓨터를 조작하고 작업을 수행하는 능력을 평가하는 지표이다. 스크린샷을 해석하고 클릭하는 등 에이전트의 실질적인 도구 활용 능력을 보여준다.