핵심 요약
기존 비디오 모델은 표준 프레임 레이트 데이터에만 의존하여 시간의 흐름을 물리적으로 이해하거나 제어하는 능력이 부족했다. 이 논문은 비디오의 오디오 피치 변화와 시간적 등변성을 활용해 스스로 시간의 흐름을 학습하는 방식을 제안하며, 이를 통해 세계 최대 규모의 슬로 모션 데이터셋을 구축하고 정밀한 시간 제어가 가능한 비디오 생성을 실현했다.
왜 중요한가
기존 비디오 모델은 표준 프레임 레이트 데이터에만 의존하여 시간의 흐름을 물리적으로 이해하거나 제어하는 능력이 부족했다. 이 논문은 비디오의 오디오 피치 변화와 시간적 등변성을 활용해 스스로 시간의 흐름을 학습하는 방식을 제안하며, 이를 통해 세계 최대 규모의 슬로 모션 데이터셋을 구축하고 정밀한 시간 제어가 가능한 비디오 생성을 실현했다.
핵심 기여
자기주도 학습 기반의 시간 추론 모델 개발
비디오의 재생 속도가 변할 때 오디오 피치가 변하는 원리(Time-frequency scaling)와 비디오 샘플링 비율에 따라 인지 속도가 비례하는 성질(Equivariance)을 활용하여 별도의 라벨 없이도 속도 변화를 감지하고 재생 속도를 추정하는 모델을 학습했다.
대규모 슬로 모션 데이터셋 SloMo-44K 구축
학습된 시간 추론 모델을 활용해 야생의 비디오 소스에서 고품질 슬로 모션 구간을 자동 추출하여 1,800만 프레임 규모의 데이터셋을 구축했다. 이는 기존 유사 데이터셋 대비 비디오 수는 70배, 프레임 수는 150배 이상 큰 규모이다.
속도 조건부 비디오 생성 및 시간적 초해상도 구현
구축된 데이터를 바탕으로 사용자가 지정한 재생 속도(0.01x ~ 1.0x)에 맞춰 물리적 역동성을 생성하는 모델과, 모션 블러가 포함된 저프레임 비디오를 선명한 고프레임 비디오로 변환하는 기술을 선보였다.
핵심 아이디어 이해하기
기존의 비디오 학습 모델은 주로 24~60 fps의 일정한 리듬으로 캡처된 데이터만 관찰하기 때문에, 물리적 사건이 실제로 얼마나 빨리 일어나는지에 대한 '시간적 속도' 개념을 학습할 기회가 없었다. 이는 마치 평생 한 가지 속도의 음악만 들은 인공지능에게 음악의 빠르기를 조절하라고 요구하는 것과 같다. 이로 인해 생성 모델이 특정 속도로 영상을 만들라는 지시를 무시하거나 물리적으로 어색한 움직임을 만드는 한계가 발생한다.
이 논문은 비디오 내부에 이미 존재하는 멀티모달 신호에 주목한다. 비디오를 빨리 감으면 소리의 높낮이(Pitch)가 올라가고, 느리게 감으면 낮아지는 물리적 현상을 이용해 모델이 시각적 움직임과 시간의 관계를 스스로 연결하도록 유도한다. 또한 비디오를 절반으로 다운샘플링하면 인지되는 속도가 정확히 두 배가 되어야 한다는 '시간적 등변성(Temporal Equivariance)' 원리를 손실 함수에 도입하여 모델이 절대적인 시간의 척도를 내면화하게 한다.
결과적으로 모델은 단순히 프레임 간의 차이를 계산하는 것을 넘어, 물체가 떨어지는 속도나 파도가 치는 물리적 법칙이 시간의 흐름에 따라 어떻게 변해야 하는지를 이해하게 된다. 이를 통해 아주 느린 슬로 모션에서도 물리적으로 타당하고 선명한 세부 정보를 복원하거나 생성할 수 있는 능력을 갖추게 된다.
방법론
전체 시스템은 시간 지각(Perceiving)과 시간 조작(Manipulating)의 두 단계로 구성된다. 지각 단계에서는 VideoMAEv2를 기반으로 오디오 피치 변화를 통해 수집된 8,000개의 라벨로 속도 변화 감지기를 미세 조정한다. 재생 속도 추정 모델 fθ는 비디오 V와 k배 가속된 Vk를 입력받아 log fθ(Vk) - log(k · fθ(V))의 차이를 최소화하는 방식으로 학습된다. [비디오와 가속된 비디오를 입력으로] → [각각의 예측 속도를 계산하고 k배 차이가 나는지 비교하여] → [손실 값을 얻고] → [모델이 시간적 스케일 변화에 일관되게 반응하도록 만든다].
조작 단계에서는 Wan2.1-I2V 모델을 기반으로 속도 제어 기능을 추가한다. 목표 속도를 로그 스케일의 버킷(Bucket)으로 나누고, 이를 사인파 위치 임베딩(Sinusoidal Positional Embedding)으로 인코딩하여 타임스텝 임베딩에 더한다. [목표 속도 값을 입력으로] → [로그 연산과 버킷 분류를 거쳐 벡터로 변환하고] → [기존 모델의 특징 맵에 더해줌으로써] → [생성되는 영상의 물리적 역동성이 해당 속도에 맞춰 조절되도록 유도한다].
시간적 초해상도(Temporal Super-resolution)를 위해 Wan2.1-VACE 구조를 활용한다. 8개의 연속된 프레임을 평균 내어 인위적인 모션 블러가 포함된 저프레임 입력을 생성하고, 이를 다시 원래의 고프레임 영상으로 복원하도록 학습시킨다. 이 과정에서 LoRA 어댑터를 사용하여 사전 학습된 모델의 지식을 보존하면서도 정밀한 프레임 보간 및 디블러링(Deblurring) 능력을 확보한다.
주요 결과
속도 변화 감지 실험에서 제안된 모델은 92.4%의 정확도를 기록하며 Gemini 2.5(59.5%)와 흐름 기반 베이스라인(80.4%)을 크게 앞질렀다. 재생 속도 추정에서도 인간 전문가와의 상관관계(Pearson ρ = 0.735)가 기존 모델들(VideoLLM 0.426, SpeedNet 0.476)보다 월등히 높게 나타나, 기계와 인간의 시간 지각 간극을 성공적으로 좁혔음을 입증했다.
비디오 생성 품질 평가에서는 SloMo-44K 데이터셋으로 학습한 모델이 표준 데이터셋 학습 모델보다 낮은 FID(68.4)와 FVD(1114.1)를 기록하여 더 사실적인 슬로 모션 영상을 생성함을 확인했다. 특히 시간적 초해상도 작업의 사용자 선호도 조사에서 실제 촬영된 저프레임 영상을 변환했을 때 90% 이상의 사용자가 베이스라인보다 본 모델의 결과물을 선호했다.
반복적 예측(Iterative Prediction) 기법의 효과도 검증되었다. 초기 예측 속도에 맞춰 영상을 가속한 뒤 다시 속도를 추정하는 과정을 3회 반복했을 때, 특히 극단적인 슬로 모션 영상에서 추정 오차가 크게 감소하며 성능이 수렴하는 양상을 보였다.
기술 상세
본 연구의 핵심 아키텍처는 비디오 확산 모델(Video Diffusion Model)에 시간적 제어 신호를 통합한 구조이다. 속도 조건부 생성을 위해 Wan2.1의 트랜스포머 백본에 LoRA를 적용하고, 프레임별 컨디셔닝(Frame-wise conditioning)을 통해 잠재 특징(Latent features)을 속도 정보로 변조(Modulate)한다. 이는 모델이 단순히 프레임 간격을 늘리는 것이 아니라, 각 속도에 맞는 물리적 모션 패턴을 생성하도록 강제한다.
학습 전략 측면에서는 데이터 불균형 문제를 해결하기 위해 속도 버킷별 샘플링 확률을 균등하게 조정하는 밸런싱 기법을 사용했다. 또한 시간적 초해상도 모델 학습 시, 단순한 서브샘플링이 아닌 시간적 윈도우 평균화를 통한 합성 블러(Synthetic blur)를 입력으로 사용하여 실제 카메라의 노출 시간에 따른 모션 블러 현상을 모델링했다. 이는 모델이 디블러링과 프레임 보간을 동시에 수행하게 만드는 핵심적인 설계이다.
한계점
모델은 비디오 내에 움직임 단서가 거의 없거나 사람이 의도적으로 아주 천천히 움직이는 경우 속도 추정에 오류를 범할 수 있다. 또한 생성 모델이 사전 학습된 Wan 백본에 의존하고 있어, 해당 모델의 근본적인 아키텍처 한계나 미세 조정 과정에서의 성능 제약이 존재할 수 있다.
실무 활용
이 연구는 비디오 편집, 특수 효과 제작, 디지털 포렌식 등 다양한 실무 분야에서 즉각적으로 활용될 수 있는 기술적 토대를 제공한다.
- 디지털 포렌식: CCTV나 블랙박스 영상의 임의적인 배속 조작 여부 및 실제 발생 시간을 정밀하게 판별
- 고품질 슬로 모션 생성: 일반 카메라로 촬영된 영상을 물리적으로 자연스럽고 선명한 고프레임 슬로 모션으로 변환
- 콘텐츠 제작: 텍스트 프롬프트를 통해 영상 내 특정 물리 현상(폭발, 액체 흐름 등)의 속도를 정밀하게 제어하여 생성
- 데이터셋 큐레이션: 방대한 영상 아카이브에서 학습에 적합한 고품질의 시간적 세부 정보가 포함된 구간을 자동 추출
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.