OSWorld 벤치마크
AI 에이전트가 실제 운영체제 환경에서 웹 브라우징, 엑셀 작업, 파일 관리 등 실질적인 컴퓨터 작업을 얼마나 잘 수행하는지 평가하는 지표이다. 단순 텍스트 응답이 아닌 실제 실행 결과와 성공률을 측정하여 에이전트의 실용성을 검증한다.
앤스로픽, 컴퓨터 비전 거장 영입하며 '컴퓨터 유즈' 가속화