쌍을 이루는 비디오 데이터
동일한 장면 배경을 공유하면서 특정 객체의 움직임이나 상태만 다른 두 개의 비디오 세트이다. 모델이 특정 조작(예: 위치 이동)에 따른 결과의 차이를 학습하는 데 필수적인 지도 학습 데이터로 활용된다.