비디오 순서 재구성 벤치마크
비디오를 이벤트 기반 클립으로 자르고 섞은 뒤 모델이 올바른 순서로 재구성하도록 요구하는 평가 지표이다. 모델의 시간적, 인과적, 공간적 추론 능력을 동시에 측정하며 인간과 AI의 성능 격차를 확인하는 데 사용된다.