통합 컨디셔닝
텍스트, 원본 비디오, 참조 이미지 등 여러 조건 입력을 하나의 conditioning tuple로 묶어 비디오 편집 모델로 전달하는 개념으로, underspecification 문제를 해결하기 위한 기반 구조를 뜻한다.