핵심 요약
자기회귀 비디오 생성은 긴 영상을 만드는 데 유리하지만 연산 비용이 매우 큽니다. 이 논문은 영상 내 움직임이 적은 부분은 이전 계산 결과를 재사용하고 움직임이 큰 부분만 새로 계산하는 방식으로, 화질 저하 없이 생성 속도를 획기적으로 높이는 기술을 제안합니다.
왜 중요한가
자기회귀 비디오 생성은 긴 영상을 만드는 데 유리하지만 연산 비용이 매우 큽니다. 이 논문은 영상 내 움직임이 적은 부분은 이전 계산 결과를 재사용하고 움직임이 큰 부분만 새로 계산하는 방식으로, 화질 저하 없이 생성 속도를 획기적으로 높이는 기술을 제안합니다.
핵심 기여
모션 인식 토큰별 캐싱 프레임워크 제안
프레임 간 차이를 활용해 픽셀 단위의 움직임을 파악하고, 움직임이 적은 정적 배경 토큰은 캐시를 재사용하며 동적 영역 토큰만 선택적으로 업데이트하는 MotionCache를 설계했다.
캐싱 오차와 잔차 불안정성의 이론적 연결
캐싱으로 발생하는 근사 오차가 잔차의 시간적 불안정성에 비례함을 수학적으로 증명하고, 프레임 간 차이가 캐싱 오차의 상한선(Upper Bound) 역할을 함을 입증했다.
2단계 계층적 추론 스케줄 도입
생성 초기에는 전체 구조를 잡기 위해 청크 단위로 업데이트하는 Warm-up 단계를 거치고, 구조가 안정된 후 토큰 단위로 정밀하게 업데이트하는 Coarse-to-fine 전략을 구현했다.
핵심 아이디어 이해하기
비디오 생성 모델은 매 단계마다 전체 화면을 새로 그려야 하므로 연산량이 방대하다. 하지만 실제 영상에서는 배경처럼 거의 변하지 않는 영역이 많으며, 이를 매번 계산하는 것은 낭비이다. 기존 방식은 영상의 특정 구간(Chunk) 전체를 건너뛰거나 계산하는 이진법적 방식을 사용해 세밀한 움직임을 놓치는 한계가 있었다.
MotionCache는 픽셀(토큰) 단위로 움직임의 정도를 측정한다. 움직임이 적은 토큰은 이전 단계에서 계산된 잔차(Residual) 값을 그대로 재사용해도 오차가 거의 발생하지 않는다는 원리를 이용한다. 이를 위해 프레임 간 차이값을 움직임의 지표로 삼아, 변화가 큰 토큰에만 연산 자원을 집중적으로 할당한다.
결과적으로 SkyReels-V2 모델에서 6.28배, MAGI-1 모델에서 1.64배의 속도 향상을 달성했다. 이는 불필요한 연산을 제거하면서도 움직임이 활발한 피사체의 디테일은 정확히 계산하여 시각적 품질을 유지한 결과이다.
관련 Figure

프레임 차이 기반의 중요도 순위가 실제 잔차 기반 순위와 얼마나 유사한지(NDCG)를 보여준다. 평균 0.9687의 높은 점수를 유지하여 프레임 차이가 모션의 훌륭한 대리 지표임을 입증한다.
샘플링 단계별 NDCG 점수 변화 그래프
방법론
MotionCache는 프레임 간 차이를 이용해 모션 인식 토큰 중요도(Motion-Aware Token Importance)를 계산한다. [현재 프레임과 이전 프레임의 잠재 벡터 차이값 입력] → [L1 Distance 연산 수행] → [중요도 맵 생성] → [해당 값이 높을수록 움직임이 큰 영역임을 의미] 과정을 거친다.
중요도 기반의 가중치 누적 정책(Importance-Weighted Accumulation Policy)을 적용한다. [각 토큰의 중요도와 전체 청크의 업데이트 강도 입력] → [누적기 A에 가중치를 더함] → [누적값이 임계값 τ를 초과하면 해당 토큰만 새로 계산] → [계산 후 누적기 초기화] 순으로 동작하여 토큰별 업데이트 빈도를 동적으로 조절한다.
추론 과정은 2단계 스케줄로 구성된다. 1단계(Coarse-grained)에서는 초기 K번의 계산 동안 전체 청크를 업데이트하여 전역적인 구조를 확립한다. 2단계(Fine-grained)에서는 앞서 정의한 토큰 단위 적응형 정책으로 전환하여 세부 디테일을 효율적으로 정제한다.
관련 Figure

기존 방식은 청크 전체를 재사용하거나 계산하는 반면, MotionCache는 모션 중요도 맵에 따라 토큰별로 선택적 계산(빨간색/노란색)을 수행함을 보여준다. 이를 통해 더 높은 속도와 품질(PSNR 23.46)을 동시에 달성할 수 있음을 시각화했다.
기존 캐싱 전략과 MotionCache의 연산 방식 비교 다이어그램
주요 결과
SkyReels-V2 모델 실험 결과, MotionCache는 Vanilla 대비 6.28배의 속도 향상을 기록하면서도 VBench 점수 하락폭을 1% 이내로 억제했다. 기존 SOTA 방식인 FlowCache가 6.26배 속도에서 PSNR 21.83을 기록한 반면, MotionCache는 동일 수준 속도에서 PSNR 23.46을 달성해 더 높은 시각적 충실도를 보였다.
MAGI-1 모델에서도 1.64배에서 2.07배 사이의 가속을 달성했다. 특히 TeaCache나 FlowCache가 가속 시 코끼리의 상아가 사라지거나 색상이 번지는 등의 오류를 보인 것과 달리, MotionCache는 토큰 단위의 정밀한 업데이트를 통해 복잡한 피사체의 구조적 무결성을 성공적으로 유지했다.
관련 Figure

자동차, 판다, 상어 등 움직이는 객체의 윤곽이 중요도 맵에서 붉은색(Dynamic)으로 정확히 포착됨을 보여준다. 이는 모델이 연산 자원을 어디에 집중해야 할지 정확히 판단하고 있음을 의미한다.
실제 영상 프레임과 계산된 모션 중요도 맵의 시각적 비교
기술 상세
본 연구는 캐싱 오차 ϵ가 시간 간격 Δt와 잔차의 차이 ∥R_t-1 - R_t∥에 비례한다는 '잔차 불안정성 원리(Residual Inconsistency Principle)'를 이론적 기반으로 한다. 이를 통해 프레임 간 차이가 잔차 불안정성의 수학적 상한선임을 증명하여 모션 프록시의 타당성을 확보했다.
아키텍처 측면에서는 DiT(Diffusion Transformer) 기반의 자기회귀 모델에 최적화되어 있다. 특히 KV 캐시를 활용하여 활성화된 토큰들만 컴팩트한 배치로 모아 연산한 뒤 다시 원래 위치로 흩뿌리는(Scatter) 방식을 채택해 하드웨어 효율성을 극대화했다. 또한 소프트 매핑 함수를 통해 정적 배경 토큰도 최소한의 업데이트 빈도를 갖도록 설계하여 배경의 세부 사항이 뭉개지는 현상을 방지했다.
한계점
논문은 생성 초기 단계(Phase 1)에서 토큰 단위 업데이트를 성급하게 적용할 경우 전역적인 시맨틱 구조가 무너질 수 있음을 명시하며, 이를 방지하기 위해 하이퍼파라미터 K(Warm-up 기간) 설정이 필수적임을 언급했다.
실무 활용
실시간성이 중요한 비디오 생성 서비스나 고해상도 영상 편집 도구에 즉시 적용 가능한 기술이다.
- 실시간 대화형 비디오 생성 에이전트의 응답 속도 개선
- 클라우드 기반 비디오 생성 API의 연산 비용 절감
- 모바일 기기 등 제한된 자원 환경에서의 고품질 영상 합성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.