본문으로 건너뛰기

binary-completion

이진 완성도

중급

작업을 '완료' 또는 '실패'로 이분법적으로 평가하는 방식으로, 최종 상태가 모든 체크포인트를 만족하면 1, 아니면 0으로 취급한다. 이 지표는 긴 워크플로에서 중간 진전을 반영하지 못하므로 부분 성과와 병행하여 해석해야 한다. OSWorld 2.0에서는 엄격한 완성 기준으로 에이전트가 최종 제출까지 도달했는지를 가늠하는 핵심 측정값으로 사용된다.