DynaVid: 합성 모션 데이터를 활용한 고역동성 비디오 생성 학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

비디오 확산 모델은 고역동성 모션 데이터의 부족으로 인해 복잡한 움직임을 생성하는 데 한계가 있었다. DynaVid는 컴퓨터 그래픽스로 생성한 합성 광학 흐름을 학습에 활용하여 모션과 외형을 분리해 학습하는 2단계 프레임워크를 구축했다. 먼저 모션 생성기가 광학 흐름을 만들고 비디오 생성기가 이를 조건으로 프레임을 생성함으로써 합성 데이터의 부자연스러운 외형 학습을 방지했다. CVPR 2026에 채택된 이 연구는 격렬한 인간 행동과 극한의 카메라 제어 시나리오에서 기존 모델 대비 뛰어난 사실성과 제어력을 증명했다.

배경

Video Diffusion Models, Optical Flow concepts, Computer Graphics rendering basics

대상 독자

비디오 생성 AI 연구자 및 고정밀 모션 제어가 필요한 콘텐츠 제작자

의미 / 영향

합성 데이터를 시각적 학습이 아닌 모션 구조 학습에 활용함으로써 데이터 부족 문제를 해결하는 새로운 방향을 제시한다. 이는 향후 영화나 게임 엔진 기반의 데이터 생성 파이프라인과 AI 모델의 결합을 가속화할 것이다.

섹션별 상세

기존 비디오 확산 모델은 학습 데이터셋에 고역동성 모션 사례가 부족하여 현실적인 움직임을 생성하는 데 어려움을 겪어왔다. 특히 미세한 모션 제어가 필요한 경우 데이터의 희소성이 모델의 성능을 제한하는 주요 요인으로 작용했다. 이러한 한계를 극복하기 위해 실제 영상 데이터에만 의존하지 않는 새로운 학습 전략이 요구됐다. 결과적으로 데이터 부족 문제를 해결하기 위한 합성 데이터 활용의 중요성이 대두됐다.

DynaVid는 컴퓨터 그래픽스 파이프라인에서 렌더링된 합성 광학 흐름(Optical Flow)을 학습에 도입하여 정밀한 모션 신호를 확보했다. 합성 광학 흐름은 외형 정보와 분리되어 모션 패턴만을 인코딩하므로 모델이 합성 영상 특유의 부자연스러운 질감을 학습하는 부작용을 방지한다. 이를 통해 실제 데이터에서 얻기 힘든 다양하고 복잡한 움직임 패턴을 모델에 효과적으로 주입할 수 있게 됐다. 모션과 외형의 디커플링은 시각적 사실성을 유지하면서도 제어력을 높이는 핵심 기제로 작용한다.

전체 프레임워크는 모션을 먼저 생성한 뒤 이를 바탕으로 비디오를 만드는 2단계 생성 구조를 채택하여 학습 효율을 극대화했다. 첫 번째 단계의 모션 생성기가 광학 흐름을 합성하면, 두 번째 단계의 비디오 생성기가 해당 흐름을 조건으로 실제와 같은 프레임을 생성한다. 이러한 분리된 구성은 모델이 합성 데이터로부터는 역동적인 움직임을 배우고, 실제 데이터로부터는 시각적 사실성을 배우도록 유도한다. 이는 단일 단계 모델보다 훨씬 정교한 움직임 제어와 고화질 결과물을 동시에 달성하게 한다.

제안된 방식은 격렬한 인간의 움직임 생성과 극한의 카메라 모션 제어라는 두 가지 도전적인 시나리오에서 그 효용성을 입증했다. 실험 결과 기존 모델들이 처리하기 힘들었던 복잡한 동적 상황에서도 높은 사실성과 정밀한 제어 성능이 확인됐다. 특히 데이터셋이 극도로 제한적인 극한의 카메라 워킹 상황에서 DynaVid의 합성 데이터 활용 전략이 탁월한 성능 향상을 기록했다. 이는 비디오 생성 모델의 적용 범위를 전문적인 영상 제작 영역까지 확장할 수 있는 가능성을 열었다.

실무 Takeaway

비디오 생성 시 모션(광학 흐름)과 외형을 분리하여 학습하면 합성 데이터의 시각적 이질성 문제 없이 정밀한 움직임을 구현할 수 있다.
데이터가 부족한 고역동성 시나리오에서는 CG 파이프라인을 통한 합성 광학 흐름 생성이 모델 성능 개선의 핵심 열쇠가 된다.
2단계 생성 구조(모션 생성 후 비디오 생성)를 적용함으로써 실제 영상의 사실성과 합성 데이터의 제어력을 동시에 확보할 수 있다.

언급된 리소스

논문DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data