binary-completion
이진 완성도
작업을 '완료' 또는 '실패'로 이분법적으로 평가하는 방식으로, 최종 상태가 모든 체크포인트를 만족하면 1, 아니면 0으로 취급한다. 이 지표는 긴 워크플로에서 중간 진전을 반영하지 못하므로 부분 성과와 병행하여 해석해야 한다. OSWorld 2.0에서는 엄격한 완성 기준으로 에이전트가 최종 제출까지 도달했는지를 가늠하는 핵심 측정값으로 사용된다.
이진 완성도
작업을 '완료' 또는 '실패'로 이분법적으로 평가하는 방식으로, 최종 상태가 모든 체크포인트를 만족하면 1, 아니면 0으로 취급한다. 이 지표는 긴 워크플로에서 중간 진전을 반영하지 못하므로 부분 성과와 병행하여 해석해야 한다. OSWorld 2.0에서는 엄격한 완성 기준으로 에이전트가 최종 제출까지 도달했는지를 가늠하는 핵심 측정값으로 사용된다.