OS월드
AI 모델이 운영체제(OS) 환경에서 얼마나 효율적으로 작업을 수행하는지 측정하는 벤치마크이다. 웹 브라우징, 파일 관리, 오피스 프로그램 사용 등 실제 컴퓨터 사용 시나리오를 포함하여 에이전트의 성능을 평가한다.
인간의 컴퓨터 제어 능력을 추월한 GPT-5.4 벤치마크 결과 공개
Claude가 사람처럼 PC를 쓴다? Anthropic의 Vercept 인수와 AI 에이전트의 진화
Anthropic, Vercept 인수로 '컴퓨터 쓰는 AI' 성능 비약적 향상 예고