핵심 요약
비디오 생성 모델이 결과물을 만들 때 특정 구간에서 내용이 급격하게 변하거나 멈춰있는 비선형적 문제를 해결합니다. Semantic Progress Function(SPF)을 통해 비디오의 의미 변화 속도를 측정하고 이를 일정하게 교정하여 훨씬 부드럽고 자연스러운 영상을 얻을 수 있습니다.
왜 중요한가
비디오 생성 모델이 결과물을 만들 때 특정 구간에서 내용이 급격하게 변하거나 멈춰있는 비선형적 문제를 해결합니다. Semantic Progress Function(SPF)을 통해 비디오의 의미 변화 속도를 측정하고 이를 일정하게 교정하여 훨씬 부드럽고 자연스러운 영상을 얻을 수 있습니다.
관련 Figure

상단 원본은 특정 프레임에서 갑자기 벌로 변하는 불연속성을 보이지만, 하단 ReTime 결과는 의미 변화가 일정하게 분산되어 부드러운 변이를 보여준다.
구슬에서 벌로 변하는 비디오 생성 결과 비교.
핵심 기여
Semantic Progress Function(SPF) 정의
비디오 시퀀스 내에서 의미가 시간에 따라 어떻게 진화하는지 1차원 함수로 정량화하는 모델 불가지론적 프레임워크를 수립했다.
Semantic Linearization 기법
측정된 SPF를 기반으로 시간적 위치 인코딩을 워핑하여 의미 변화가 일정한 속도로 발생하도록 재매개변수화하는 방법을 개발했다.
Frequency-Aware Retiming
RoPE의 주파수 대역별로 워핑 강도를 다르게 적용하여 전역적인 페이싱 교정과 국부적인 움직임의 부드러움을 동시에 확보했다.
모델 불가지론적 적용성
Wan2.2, LTX-Video 등 서로 다른 아키텍처를 가진 최신 비디오 확산 모델에서 추가 학습 없이 성능 향상을 입증했다.
핵심 아이디어 이해하기
비디오 생성 모델은 잠재 공간(Latent Space)을 탐색하며 프레임을 생성하지만, 이 탐색 속도가 시각적 의미 변화 속도와 일치하지 않는 경우가 많다. 예를 들어, 임베딩 공간에서의 이동 거리는 일정한데 실제 화면상에서는 갑자기 물체가 변하는 '의미적 도약'이 발생한다. 이는 모델이 학습 데이터의 분포에 따라 특정 구간의 변화를 더 민감하게 처리하기 때문이다.
이 논문은 각 프레임을 SigLIP과 같은 모델을 통해 의미론적 임베딩 벡터로 변환한 뒤, 프레임 간의 각도 거리(Angular Distance)를 계산한다. 이 거리들의 누적합을 시간 축에 대해 나열하면 비디오의 '의미적 진행도'를 나타내는 곡선이 그려진다. 이 곡선이 직선에서 벗어날수록 영상의 전개가 불균형하다는 것을 의미한다.
해결책은 이 곡선을 다시 직선으로 펴는 것이다. 즉, 의미 변화가 급격한 구간에는 더 많은 시간적 자원(프레임)을 할당하고, 변화가 없는 구간은 압축한다. 이를 위해 Transformer의 RoPE(Rotary Position Embedding) 값을 조정하여 모델이 인지하는 시간의 흐름을 왜곡시킴으로써, 최종 출력물에서는 시각적 변화가 아주 일정하고 부드럽게 나타나도록 유도한다.
관련 Figure

원본 SPF 그래프의 급격한 경사가 리타이밍 후 직선에 가깝게 펴지는 과정을 시각화하여, 의미적 선형화가 어떻게 이루어지는지 설명한다.
고양이에서 사자로 변하는 영상의 SPF 그래프와 리타이밍 과정.
방법론
전체 접근 방식은 비디오의 의미적 진화를 1차원 궤적으로 증류하는 SPF 구축에서 시작된다. 먼저 SigLIP을 사용하여 각 프레임 x_i를 임베딩 z_i로 매핑한 후, d_ij = arccos(z_i^T z_j)를 통해 프레임 간 거리를 계산한다. [두 벡터의 내적값을 입력으로] → [역코사인 연산을 수행해] → [두 프레임 사이의 각도 거리를 얻고] → [이 값이 클수록 두 프레임의 시각적 의미가 다름을 의미한다.]
추출된 거리 데이터를 바탕으로 가중치 적용 최소자승법(Weighted Least-Squares)을 사용하여 SPF 벡터 S를 추정한다. 이때 시간적으로 가까운 프레임 간의 제약 조건을 강조하기 위해 가우시안 함수 기반의 가중치 w_ij = exp(-(i-j)^2 / 2sigma^2)를 적용한다. [프레임 인덱스 차이를 입력으로] → [지수 함수 연산을 수행해] → [가중치 숫자를 얻고] → [이 숫자가 클수록 해당 프레임 쌍의 거리 정보가 SPF 형성에 더 큰 영향을 미친다.]
생성 모델에 적용할 때는 계산된 S의 역함수를 이용하여 시간적 위치 tau_k를 계산한다. 특히 RoPE의 주파수 대역 b에 따라 워핑 강도 alpha_b를 다르게 설정하는 Frequency-Aware Warping을 도입한다. 저주파 대역은 전역적 구조를 위해 강하게 워핑하고, 고주파 대역은 국부적 디테일을 위해 선형에 가깝게 유지한다. 최종적으로 세 번의 반복 정제(Iterative Refinement) 과정을 거쳐 목표하는 선형 진행도에 도달한다.
관련 Figure

저주파 대역은 목표 스케줄을 엄격히 따르고 고주파 대역은 선형을 유지함으로써, 전역적 흐름 교정과 국부적 부드러움을 동시에 잡는 원리를 보여준다.
주파수별 리타이밍 스케줄과 파형 변화.
주요 결과
VBench를 이용한 정량 평가 결과, Wan2.2 모델에서 원본의 Aesthetic Score(0.630)와 Retimed 결과(0.626)가 오차 범위 내에서 유지되어 시각적 품질 저하 없이 페이싱만 개선됨을 확인했다. LTX-2 모델에서도 유사하게 품질 지표가 보존되었다.
사용자 선호도 조사에서는 88%의 응답자가 SPF를 통해 선형화된 비디오의 의미적 페이싱을 원본보다 선호한다고 답했다. 특히 딸기가 새로 변하는 것과 같은 급격한 모핑 장면에서 기존의 선형 보간법이 유령 현상(Ghosting)을 일으키는 것과 달리, 제안 방법은 매우 일관된 중간 단계 프레임을 생성했다.
Ablation Study를 통해 SigLIP이 DINO나 CLIP보다 미세한 감정 변화(예: 화난 표정의 시작점)를 포착하는 데 가장 우수함을 입증했으며, 거리 파라미터 p=2를 사용할 때 기존 비디오의 재편집 결과가 가장 자연스러웠음을 확인했다.
기술 상세
본 연구의 핵심은 비디오 확산 Transformer(ViT) 내부의 RoPE 메커니즘을 직접 조작한다는 점이다. 기존의 시간적 제어 방식이 텍스트 프롬프트나 마스크에 의존했던 것과 달리, SPF는 모델의 내부 특징 표현(Internal Feature Representation)을 직접 활용하여 모델 불가지론적인 특성을 갖는다.
수학적으로 SPF는 프레임 간의 의미적 거리를 적분한 형태로 정의되며, 기울기는 순간적인 의미 변화율을 나타낸다. 이를 선형화하기 위해 시간 인덱스를 k에서 tau_k로 매핑하는 과정에서, 단순한 선형 워핑이 아닌 주파수별 지수 감쇠 스케줄(Exponential Decay Schedule)을 적용하여 고주파 성분의 불안정성을 억제했다.
기존 비디오(In-the-wild)에 적용할 때는 Segmented Least Squares 알고리즘을 사용하여 비디오를 의미적으로 유사한 구간들로 분할하고, 각 구간의 끝점을 키프레임으로 삼아 재생성하는 방식을 취한다. 이는 닫힌 소스(Closed-source) 모델이나 실사 영상에도 본 프레임워크를 확장할 수 있게 한다.
한계점
프레임 단위 임베딩에 의존하기 때문에 급격한 카메라 움직임이나 강한 조명 변화가 발생할 경우, 순수한 의미 변화가 아닌 시각적 노이즈가 SPF에 반영될 수 있다. 또한 반복적인 정제 과정에서 시간적 임베딩이 학습 분포를 벗어날 경우 출력 품질이 저하될 위험이 존재한다.
실무 활용
추가 학습이나 파인튜닝 없이 추론 단계에서 즉시 적용 가능한 비디오 페이싱 교정 도구로, 상용 비디오 생성 서비스의 품질 개선에 직접 활용될 수 있다.
- 생성형 AI 비디오의 갑작스러운 장면 전환 및 끊김 현상 제거
- 기존 영상의 특정 구간 속도를 의미 변화량에 맞춰 자동으로 조절하는 스마트 리타이밍
- 서로 다른 생성 모델 간의 의미적 전개 속도 비교 및 벤치마킹
- 스토리보드 기반의 일정한 속도를 가진 모핑 애니메이션 제작
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.