3인칭 비디오 생성
로봇 외부의 고정된 카메라 시점에서 작업 수행 과정을 담은 영상을 생성하는 기술이다. 로봇의 시점이 아닌 관찰자 시점의 데이터를 활용함으로써 대규모 비디오 모델이 학습한 인간의 행동 양식과 물리적 상호작용 지식을 로봇 제어에 활용할 수 있게 한다.