TL;DR
긴 호라이즌 애니메이션은 프레임 간 drift으로 인해 배경의 텍스처 손상과 인물 아이덴티티 불일치를 초래한다. 기존의 이미지-공간 carry-over와 attention sink은 시간이 지남에 따라 누적 오차를 축적하고 품질 저하를 일으킨다. EverAnimate은 cross-chunk 의미를 잠재 공간에서 전달하고, 샘플링 시 intrinsic restoration을 통해 drift를 보정하므로 분 단위의 긴 애니메이션에서도 시각적 일관성 및 인물 동일성 보존이 가능해진다.
왜 중요한가
긴 호라이즌 애니메이션은 프레임 간 drift으로 인해 배경의 텍스처 손상과 인물 아이덴티티 불일치를 초래한다. 기존의 이미지-공간 carry-over와 attention sink은 시간이 지남에 따라 누적 오차를 축적하고 품질 저하를 일으킨다. EverAnimate은 cross-chunk 의미를 잠재 공간에서 전달하고, 샘플링 시 intrinsic restoration을 통해 drift를 보정하므로 분 단위의 긴 애니메이션에서도 시각적 일관성 및 인물 동일성 보존이 가능해진다.
관련 Figure

드리프트의 두 축은 저수준 품질 drift와 고수준 아이덴티티 drift로 요약된다. 이 그림은 두 문제의 존재를 직관적으로 보여주며, EverAnimate의 목적이 두 drift를 모두 해결하는 것임을 시사한다.
EverAnimate의 도입부에서 drift 문제를 시각화한 다이어그램

Wan-Animate의 한계로 인해 long-horizon에서도 여전히 drift가 발생함을 시각적으로 보여준다. multi-view 메모리의 필요성과 cross-chunk anchored memory의 한계를 설명하는 근거로 작용한다.
drift 현상을 세부적으로 비교한 motivation 그림
핵심 기여
Persistent Latent Propagation
VAE 잠재를 cross-chunk으로 재전달하기 위한 context memory를 구축한다. Mmot(짧은 시간 기억)와 Mid(다视角 다중 뷰 정체성 기억)을 사용해 시간적 흐름과 다-view 정체성 정보를 유지하고, memory augmentation Tid로 공간 편향을 줄인다.
Restorative Flow Matching
샘플링 중 발생하는 intra-trajectory 편차를 보정하기 위해 velocity를 보정하는 Restorative FM을 도입한다. Xet, X1 간의 최적 보정 벡터를 학습하고, λ(t) 스케줄로 보정 강도를 조절하여 학습 안정성과 drift 억제를 달성한다.
LoRA를 통한 경량 파인튜닝
전체 파라미터를 학습하지 않고 LoRA를 사용한 경량 튜닝으로 EverAnimate의 적응성을 확보한다. 실험에서 lightweight LoRA tuning으로 성능 향상을 달성한다.
명시적 하이브리드 평가 대비 큰 성능 향상
10초 구간에서 PSNR/SSIM이 각각 8%/7% 증가하고 LPIPS/FID가 각각 22%/11% 감소하는 등 단거리와 장거리 모두에서 SOTA 대비 향상을 보인다(예: 10s: PSNR 25.238, SSIM 0.895, LPIPS 0.169; 90s: PSNR 22.646, SSIM 0.810, LPIPS 0.220; FID은 각각 26.241/23.981 등). ablation에서도 RFM 미적용 시 품질 저하가 확인된다.
핵심 아이디어 이해하기
출발점: 긴 호라이즌 영상 생성에서 배경은 정적이고 인물은 빠르게 움직이는 상황에서, cross-chunk 반복 재구성은 텍스처 저하와 인물 아이덴티티 drift를 유발한다. 기존의 image-space carry-over와 attention sinks는 장시간에 걸친 안정성을 제공하지 못한다. 논문은 잠재 공간에서 cross-chunk semantics를 지속적으로 전달하고, 샘플링 시 drift를 보정하는 intrinsic restoration을 도입한다. 해결 원리: (1) Persistent Latent Propagation으로 Mmot와 Mid를 활용해 모션/아이덴티티 기억을 유지하고 cross-chunk carry-over를 강화한다. (2) Restorative Flow Matching으로 샘플링 중 perturbation을 받았을 때 경로를 정교하게 보정하는 벡터를 학습한다. 달라지는 점: (a) 이미지-공간 carry-over의 누적 문제를 해결하고 latent space에서의 연속성 유지에 집중한다. (b) 단일 참조 프레임에 의한 attention sink만으로는 충분치 않으므로 다-view 정체성 메모리와 보정 메커니즘을 병행한다.
방법론
설계의 핵심은 두 가지 구성 요소다. 먼저 두 챙크 간의 컨텍스트 메모리(Mctx)를 구성해 V(2) 생성을 안내한다. Mctx는 모션 메모리(Mmot)와 정체성 메모리(Mid)로 이루어지며, 다중 뷰 샘플링으로 다양한 view의 정체성을 확보한다. 이 메모리는 X(2)t에 Epose(Cpose)로 포즈를 주입하는 단계 이후 DiT 입력에 결합된다. 메모리 토큰은 Xpad(Null latent block)로 시간 축 길이를 맞춘다. 두 번째 구성 요소는 Restorative Flow Matching(RFM)이다. 각 단계에서 노이즈가 추가된 상태 X0에서 X1으로의 경로를 따라가되, perturbation Xe가 주어지면 Xt에서의 속도 벡터를 Ut,restoration term과 결합해 Xet로 보정한다. 이때 λ(t)로 보정 강도를 스케줄링한다. 학습 목표는 LRFM로, Het, t | C를 사용해 유사한 경로를 재구성하도록 벡터 필드를 학습한다. 학습은 두 단계로 진행된다. (i) Memory adaptation: 기존 이미지-투-비디오 기반 모델에 메모리 조건을 맞춰 FM 손실 LFM으로 학습한다. (ii) Anti-drift adaptation: LRFM으로 drift 억제를 강화한다. 추론 단계에서 각 챤크는 이전 챤크의 마지막 r latent를 모티브로 사용하고, 디코딩 없이 동일한 latent 공간에서 다음 챈크를 생성한다.
관련 Figure

Persistent Latent Propagation과 Restorative Flow Matching의 흐름을 한 눈에 보여주며, memory 구성(Mmot, Mid)과 DiT 입력 확장 방식의 핵심 흐름을 보강한다.
EverAnimate의 전체 아키텍처 개요

메모리(Mmot, Mid) 구성과 Tid를 통한 메모리 편향 감소를 보여준다. Xpad의 역할과 포즈 입력의 결합 과정을 시각화한다.
메모리 구성 및 주입 방식

FM과 RFM의 차이, perturbation을 통한 restoration 경로의 학습 차이를 도식화한다. Xet의 정의와 Uet의 보정 메커니즘이 드러난다.
Restorative Flow Matching의 개념도
주요 결과
주요 벤치마크에서 일관된 성능 향상을 보인다. 10s에서 Ours는 PSNR 25.238, SSIM 0.895, LPIPS 0.169, FID 38.277 등으로 Wan-Animate 대비 우수하다. 60s에서 PSNR 23.857, SSIM 0.855, LPIPS 0.194, FID 26.241 등으로 개선된다. 90s에서도 PSNR 22.646, SSIM 0.810, LPIPS 0.220, FID 23.981 등으로 안정성을 유지한다. Ablation은 각 구성요소의 기여를 확인하는데, w/o RFM은 PSNR 21.842, w/o PLP는 22.317으로 저하되며 Full model(=EverAnimate)이 가장 높은 품질과 일관성을 보인다. 시각적 비교(주요 Figure 7)에서 Long-horizon에서도 배경과 인물 아이덴티티가 일정하게 유지되며, drift가 줄어든 것을 확인할 수 있다.
관련 Figure

장거리 생성에서 각 chunk 간의 차이와 안정성 향상을 시각적으로 보여준다. Restorative 흐름이 드리프트를 억제하는 효과를 시각적으로 확인 가능하다.
1st/10th/20th/30th... chunk의 흐름 비교 스크린샷

질적 비교를 통해 Our가 background과 인물 아이덴티티를 더 안정적으로 유지하는 경향을 보인다. 실험적 주된 기여를 시각적으로 보강한다.
Qualitative 비교: 각 메서드의 60s~180s 구간의 시각적 차이
기술 상세
아키텍처: DiT 기반 비디오 VAE 인코더(E), 디코더(D) 및 vθ 조건 벡터를 사용한다. 컨텍스트 토큰은 Mmot, Mid, Xpad를 연결(CONCAT)하고 포즈(Cpose, Cpose_faceo) 정보를 포즈 어댑터(Epose)로 주입한다. Face guidance는 Eface를 통해 중간 블록의 교차 주의(attention)로 주입한다. 학습 목표는 LFM에서 vθ(Ht, t | C(2))의 차이를 UT와 비교하는 것이다. Restorative Flow Matching은 X0에서 X1로의 경로를 따라가며 perturbation ξ에 의해 생성된 Xe를 활용해 Xet를 정의하고, 최적의 속도 Uet,exact를 구한다. 그러나 1−t 분모의 보정계수는 수치적으로 불안정하므로 λ(t)로 보정한다. λ(t)의 간단한 형식은 Gaussian 형태이며, 트레이닝 안정성을 위해 0-가능 구간에서 과도 보정이 발생하지 않도록 한다.
실무 활용
LoRA 경량 튜닝 기반의 EverAnimate은 분 단위의 긴 애니메이션에서도 높은 품질과 아이덴티티 일관성을 달성한다. inference 시 20 샘플링 스텝으로 작동하며, 4개의 기억 프레임(K=4)과 1개의 motion memory(r=1)을 구성한다.
- 실시간·실시간 근접형 가상 아바타 애니메이션 생성
- 포즈 제어를 통한 게임 캐릭터·VR/AR 콘텐츠 제작
- 다중 뷰 영상에서 일관된 인물 재현 및 배경 안정화
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.