핵심 요약
기존의 비디오 생성 AI는 사용자가 원하는 경로로 객체를 움직이게 하려면 수백 번의 복잡한 계산 과정을 거쳐야 해서 시간이 오래 걸렸습니다. 이 논문은 단 4번의 계산만으로도 고화질 영상을 만들면서도, 사용자가 그린 선을 따라 객체가 정확하게 움직이도록 만드는 기술을 제안하여 실시간 비디오 편집의 가능성을 열었습니다.
왜 중요한가
기존의 비디오 생성 AI는 사용자가 원하는 경로로 객체를 움직이게 하려면 수백 번의 복잡한 계산 과정을 거쳐야 해서 시간이 오래 걸렸습니다. 이 논문은 단 4번의 계산만으로도 고화질 영상을 만들면서도, 사용자가 그린 선을 따라 객체가 정확하게 움직이도록 만드는 기술을 제안하여 실시간 비디오 편집의 가능성을 열었습니다.
핵심 기여
3단계 학습 프레임워크 구축
Trajectory Adapter 학습, Generator 증류(Distillation), 그리고 Diffusion과 Adversarial 손실을 결합한 Adapter 미세 조정을 포함하는 체계적인 3단계 파이프라인을 구축했다.
Diffusion Discriminator 도입
생성된 영상과 실제 영상의 분포 차이를 줄이기 위해 Diffusion Discriminator를 도입하여, 적은 단계의 생성에서 발생하는 고질적인 블러(Blur) 현상을 해결하고 시각적 품질을 높였다.
동적 Diffusion Loss 스케일링 기법
학습 초기 단계에서 Diffusion Loss와 GAN Loss 사이의 그래디언트 불균형을 해결하기 위해, 반복 횟수에 따라 가중치를 조절하는 동적 스케일링 기법을 적용하여 학습 안정성을 확보했다.
FlashBench 벤치마크 제안
최대 121프레임의 긴 시퀀스와 다양한 객체 수를 포함하는 궤적 제어 비디오 생성 전용 벤치마크를 제안하여 모델의 장기 일관성과 제어 정확도를 정밀하게 평가할 수 있게 했다.
핵심 아이디어 이해하기
기존 Diffusion 모델은 노이즈에서 이미지를 복원할 때 수십 번의 Denoising 단계를 거친다. 궤적 제어(Trajectory Control)를 위해 Adapter를 추가할 때도 이 긴 과정을 전제로 설계되는데, 이를 단순히 4단계 정도로 줄이면(Few-step) 복원 경로가 완전히 달라져 영상이 흐려지거나 객체가 경로를 이탈하는 문제가 발생한다. FlashMotion은 이 문제를 해결하기 위해 '느린 모델(Slow)'에서 학습된 궤적 정보를 '빠른 모델(Fast)'에 맞게 재조정하는 전략을 취한다. 단순히 픽셀 단위로 정답을 맞추는 Diffusion Loss만 쓰면 평균적인 값으로 수렴해 영상이 뭉개지기 쉬운데, 이를 방지하기 위해 진짜와 가짜 영상을 구별하는 Discriminator를 함께 학습시켜 선명도를 유지한다. 특히 DiT(Diffusion Transformer) 구조를 활용한 Discriminator가 영상의 의미적 정보와 궤적 정보를 동시에 파악하도록 설계하여, 객체가 지정된 경로를 따라가면서도 배경과 자연스럽게 어우러지도록 유도한다. 결과적으로 연산량은 획기적으로 줄이면서도 제어의 정밀도는 유지하는 결과를 얻었다.
방법론
전체 아키텍처는 Wan2.2-TI2V-5B 모델을 기반으로 하며, DMD(Distribution Matching Distillation) 기법을 사용하여 4단계 추론이 가능한 FastGenerator로 증류한다. DMD 학습 시 [교사 모델과 학생 모델의 스코어 차이를 입력으로] → [학생 모델의 파라미터에 대한 그래디언트를 곱하는 연산을 수행해] → [최종 업데이트 방향을 얻고] → [이 값은 학생 모델이 교사 모델의 데이터 분포를 정확히 따르도록 강제하는 의미를 가진다]. Trajectory Adapter는 ControlNet 또는 ResNet 구조를 선택할 수 있으며, 3D VAE로 인코딩된 궤적 맵을 입력받아 DiT 블록에 정보를 주입한다. 학습 시에는 세그멘테이션 마스크(Dense)에서 바운딩 박스(Sparse)로 점진적으로 전환하는 전략을 사용하여 모델의 궤적 이해도를 높인다. 최종 단계인 Stage 3에서는 FastAdapter를 FastGenerator에 정렬시킨다. 이때 Diffusion Loss는 픽셀 수준의 정확도를 담당하고, GAN Loss는 분포 수준의 일관성을 담당한다. 두 손실 함수의 균형을 맞추기 위해 공식을 사용한다. [현재 학습 반복 횟수(step)를 입력으로] → [0.1 승을 취한 뒤 상수를 곱하는 연산을 수행해] → [손실 가중치 를 얻고] → [이 값은 학습 초기 GAN Loss의 불안정성을 억제하기 위해 Diffusion Loss의 영향력을 점진적으로 키우는 역할을 한다].
주요 결과
FlashBench, MagicBench, DAVIS 데이터셋에서 실험한 결과, FlashMotion은 기존의 Few-step 모델(DMD, GAN, LCM 기반)보다 시각적 품질(FVD)과 궤적 정확도(Mask/Box IoU) 면에서 월등한 성능을 보였다. 특히 ControlNet 기반 Adapter 사용 시 FlashBench에서 FVD 96.08을 기록하며 SOTA를 달성했다. 추론 속도 측면에서 121프레임 생성 시 기존 Multi-step 모델인 MagicMotion이 1158초 소요된 반면, FlashMotion은 24.44초(ControlNet) 또는 11.72초(ResNet) 만에 생성을 완료하여 약 47배에서 98배의 속도 향상을 입증했다. Ablation Study를 통해 Diffusion Discriminator의 효과를 검증했다. Discriminator가 없을 경우 영상에 심각한 블러 현상이 나타났으며, Semantic Self-Attention과 Trajectory Cross-Attention 모듈을 Discriminator에 추가했을 때 가장 높은 성능을 기록했다.
실무 활용
비디오 생성 속도가 비약적으로 빨라짐에 따라 실시간 인터랙티브 비디오 편집이나 모바일 환경에서의 영상 생성이 가능해집니다. 사용자가 화면에 선을 긋는 것만으로 객체의 움직임을 즉각적으로 제어할 수 있습니다.
- 사용자 입력 궤적 기반의 실시간 애니메이션 생성 도구
- 영화 및 광고 제작 시 객체 이동 경로의 빠른 프로토타이핑
- 모바일 앱 내 개인화된 숏폼 영상 제작 서비스
- 로봇 시뮬레이션에서의 객체 움직임 가이드 생성
기술 상세
모델의 백본은 DiT 아키텍처를 채택한 Wan2.2를 사용하며, 궤적 제어를 위해 각 DiT 블록에 Zero-initialized Convolution 레이어를 통해 Adapter의 출력을 더하는 구조를 가진다. FastGenerator 생성에는 DMD 기법이 핵심적인 역할을 하며, Real Score Model과 Fake Score Model을 사용하여 그래디언트를 계산한다. Diffusion Discriminator는 SlowGenerator의 DiT 가중치를 복제하여 초기화하며, 중간 레이어의 특징값들을 Attention 기반 Classifier에 입력한다. Classifier 내부에서는 Learnable Query Token이 텍스트, 이미지(첫 프레임), 궤적, 비디오 토큰과 순차적으로 Cross-Attention을 수행하여 실제 여부를 판별한다. [비디오 토큰과 궤적 토큰을 입력으로] → [Cross-Attention 연산을 수행해] → [통합된 특징 벡터를 얻고] → [이 값은 모델이 객체의 움직임이 입력된 궤적과 일치하는지를 판별하는 근거가 된다]. 학습 데이터셋으로는 23,000개의 고화질 영상과 텍스트/궤적 어노테이션이 포함된 MagicData를 사용했다. Stage 3의 미세 조정은 4개의 A100 GPU에서 단 1,000 Step만으로 완료될 만큼 효율적이다.
한계점
ResNet 기반의 가벼운 Trajectory Adapter를 사용할 경우, 파라미터 용량의 한계로 인해 객체 수가 많아질 때 ControlNet 기반 모델보다 궤적 정확도가 다소 떨어지는 경향이 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료