TL;DR
긴 형식의 비디오 생성은 훈련 데이터의 부족과 노출 편향으로 인해 품질이 급격히 떨어진다. FlowLong은 pretrained flow-based diffusion 모델의 native 창 길이를 초과하는 장시간 비디오 생성을 학습 없이 달성하고, overlapping chunks를 Tweedie matching으로 정합시켜 시간적 일관성을 확보한다. 또한 오디오-비디오 결합 생성과 텍스트-3DGS와 같은 확장 작업에도 추가 학습 없이 적용 가능하다.
왜 중요한가
긴 형식의 비디오 생성은 훈련 데이터의 부족과 노출 편향으로 인해 품질이 급격히 떨어진다. FlowLong은 pretrained flow-based diffusion 모델의 native 창 길이를 초과하는 장시간 비디오 생성을 학습 없이 달성하고, overlapping chunks를 Tweedie matching으로 정합시켜 시간적 일관성을 확보한다. 또한 오디오-비디오 결합 생성과 텍스트-3DGS와 같은 확장 작업에도 추가 학습 없이 적용 가능하다.
핵심 기여
FlowLong: training-free, model-agnostic long-video extension
FlowLong은 pretrained flow-based diffusion 모델의 백본을 그대로 두고, 여러 겹치는 창(window)을 병렬로 샘플링한 뒤 Tweedie matching으로 인접 창 간 경계 프레임을 정합시키는 inference-time 프레임워크를 제시한다. KV-cache 의존 없이 동작하고, 백본 간의 아키텍처 의존성을 제거하여 텍스트-비디오, 오디오-비디오 결합, 텍스트-3DGS 등 다양한 과제에 적용 가능하다.
Tweedie matching으로 manifold-constraint 및 시간적 일관성 확보
인접 창의 겹치는 영역에서 예측된 clean 샘플을 per-frame으로 선형 보간하는 Grad-기반 업데이트를 도입한다. Mk, M′k+1로 정의된 겹침 창에 대해 x¯0|t(ck) = x0|t(ck) − λ ∇ℓk(...)의 형태로 기여도를 더하고, 같은 규칙을 이웃 창에도 적용하여 경계에서의 불연속성을 제거한다.
Stochastic Early-Phase Sampling으로 경로 관성 해소
초기 노이즈가 높은 시점에 샘플링에 노이즈를 주입해 각 창의 독립적 예측 경로가 서로 뒤섞이게 한다. 이후 점차 determinisitc ODE 샘플링으로 전환해 시각 품질을 보존한다. 이 혼합 방식은 장시간 비디오에서 노출 편향과 drift를 크게 줄인다.
오디오-비디오 결합 및 텍스트-3DGS로의 확장
오디오-비디오 Joint generation과 텍스트-3DGS에 대해 동일한 overlapped-window geometry와 Tweedie matching을 적용하되, 모달리티별로 독립적인 노이즈 샘플 ε v, ε a를 사용해 phase-locked 시퀀스를 생성한다.
학습 없이 다양한 백본에 적용 가능
FlowLong은 특정 모델 특화 없이 기존의 비디오 디퓨전(backbone)을 재학습 없이도 확장하며, exposure bias 없이 장시간 시퀀스를 생성한다.
핵심 아이디어 이해하기
단계 1: 각 창은 독립적으로 샘플링되며 서로 다른 ODE 경로를 따른다. 단계 2: Tweedie matching으로 겹치는 구간의 예측을 보간해 인접 청크 간 경계를 매끄럽게 맞춘다. 단계 3: 초기 단계에서 stochastic 샘플링을 도입해 경로 관성을 분해하고, 후반부에는 deterministic ODE 샘플링으로 고해상도 이미지를 유지한다. 단계 4: 위의 방법은 오디오-비디오, 텍스트-3DGS 등 비디오 기반 백본의 확장을 가능하게 한다.
방법론
단락 1: 전체 접근 방식과 핵심 아이디어 — pretrained flow-based diffusion 모델의 창 단위 샘플링을 병렬로 수행하고, 겹치는 부분에서 Tweedie matching으로 정합한다. 각 청크는 ck로 주어진 텍스트 프롬프트를 가지며, 청크 간 중첩 구간은 Mk, M′k+1으로 매핑된다. 손실 ℓk은 인접 청크의 겹치는 프레임에서의 예측이 일치하도록 정의되며, x¯0|t은 xˆ0|t의 보정된 버전이다. 결과적으로 겹침 구간은 한 번만 저장되고 서로 공유된다.
관련 Figure

FlowLong의 Tweedie matching과 겹침 창 정합의 흐름을 시각화하며 핵심 기여인 정합 과정을 보여준다.
FlowLong 파이프라인 도해
주요 결과
단락 1: 장시간 비디오 생성에서의 성능 — Figure 3의 정성적 비교에서 FlowLong은 drift 및 반복 모션을 완화하고, 30s/60s에서 다른 연구 대비 우수한 시간적 일관성과 비주얼 품질을 보인다. Table 1의 VBench 지표에서 30s 및 60s 모두에서 최상 또는 상위 수준의 점수를 기록했다. 특히 Dynamic Degree에서 강한 차별성을 보인다.
관련 Figure

장시간 시퀀스에서의 정합성과 품질 차이를 시각적으로 제시한다.
30초 비디오 생성 및 텍스트-비디오 비교

3D Gaussian 분포의 확장을 통해 3D 씬의 뷰포인트 다양성이 증가함을 보여준다.
텍스트-3DGS 비교(뷰포인트 확장)
기술 상세
[단락 1] 전체 아키텍처: vθ를 각 창마다 독립적으로 호출하고, 창 간 중첩 구간에서 Tweedie matching을 수행한다. [단락 2] 수학적/알고리즘적 기초: Mk, M′k+1에 의한 겹침 창 매핑, ℓk(x; t) = 1/2 || Mk x0|t(ck) − M′k+1 x0|t(ck+1) ||^2, x¯0|t(ck) = xˆ0|t(ck) − γ∗∇ℓk, x¯0|t(ck) → x¯1|t(ck)으로 보정, [단락 3] Prior work 대비 차별점: KV-cache 의존성이 없고, 교육 없이 backbone에 독립적으로 작동한다. [단락 4] 구현/세부사항: Window geometry(F,O,S), 선형 λj 스케줄, 마지막 쓰는 방식(last-writer-wins)으로 겹침 영역 합성. [단락 5] 오디오-비디오 및 텍스트-3DGS 확장 세부: 오디오-비디오의 경우 Fa, Sa, Oa의 매핑을 통해 모달리티 간 시간 정렬을 유지한다.
한계점
과제: overlap 기반의 제약은 지역적 정합성에 의존하며, 매우 긴 비디오에서 글로벌 시나리오 수준의 일관성을 보장하지는 못한다.
실무 활용
FlowLong은 학습 없이도 pretrained backbones를 확장해 장시간 비디오 생성이 가능하도록 하는 파이프라인이다. 텍스트-비디오, 오디오-비디오, 텍스트-3DGS 등 다양한 생성 태스크에 추가 학습 없이 적용 가능하다.
- 긴 형식의 영화 예고편/시퀀스 생성
- 오디오-비디오 콘텐츠의 시퀀스 확장
- 텍스트로부터 확장형 3D 장면 생성(TS3DGS)
- 멀티-샷 촬영에서의 스타일리스트 간 전이와 시퀀스 통일
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

글로벌 프롬프트와 로컬 프롬프트 간의 조합으로 장시간에서도 다양성과 일관성을 달성하는 예시를 보여준다.
멀티 프롬프트 롱 비디오 예시
키워드
용어 해설
- Manifold Constraint
- — 입력 데이터의 고차원 매니폴드에서 샘플이 합리적으로 배치되도록 하는 제약으로 Tweedie Matching의 핵심 기반이 된다.
- Flow Matching
- — Rectified flow 등에서 x1에서 x0로의 흐름을 정의하는 속도 벡터장을 근사하는 학습 방법이다.
- Overlap Window
- — 인접 청크 간 공통 프레임 영역을 형성하기 위한 윈도우 구성 요소로 Tweedie Matching의 입력으로 사용된다.
- ODE Sampling
- — 샘플링 과정에서 deterministic ODE 경로를 사용해 고해상도 이미지를 얻는 방법이다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.