형태 전이
로봇의 외형을 비디오 생성 모델이 더 잘 이해할 수 있는 인간의 형태로 변환하는 과정이다. 로봇과 인간의 형태적 차이(Embodiment Mismatch)로 인해 발생하는 비디오 생성 오류를 줄이고, 모델이 가진 인간 행동에 대한 사전 지식을 효과적으로 추출하기 위해 사용된다.