HiAR: 계층적 디노이징을 통한 효율적인 자기회귀형 긴 영상 생성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 자기회귀 방식 영상 생성은 이전 프레임을 완전히 깨끗하게 만든 뒤 다음 프레임을 생성하느라 오차가 누적되어 화질이 급격히 나빠지는 문제가 있었다. 이 논문은 노이즈가 섞인 상태의 이전 프레임을 참조하는 계층적 방식을 도입해 오차 전파를 막고 영상의 일관성을 획기적으로 개선했다.

왜 중요한가

핵심 기여

계층적 디노이징 파이프라인

블록별 순차 생성이 아닌, 모든 블록에 대해 디노이징 단계별로 병렬적인 인과 관계 생성을 수행하여 블록 간 오차 전파를 억제함.

파이프라인 병렬 추론

계층적 구조를 활용해 추론 시 단계 간 병렬 처리를 구현함으로써 약 1.8배의 실행 속도 향상을 달성함.

Forward-KL 정규화

증류 학습 시 발생하는 저역동성(low-motion) 문제를 해결하기 위해 양방향 어텐션 모드에서 Forward-KL 손실 함수를 도입하여 움직임의 다양성을 보존함.

핵심 아이디어 이해하기

기존의 자기회귀(Autoregressive) 영상 생성은 마치 한 페이지를 완벽하게 다 쓴 뒤에야 다음 페이지를 쓰는 것과 같다. 하지만 앞 페이지에서 작은 오타가 발생하면 그 오타가 다음 페이지의 내용까지 왜곡시키는 '오차 누적' 현상이 발생한다. 특히 Diffusion Model에서는 이전 프레임을 완전히 깨끗한 상태(Noise Level 0)로 만든 뒤 다음 프레임의 조건으로 사용하는데, 이때 이전 프레임의 예측 오류가 확정적인 정보로 전달되어 영상이 갈수록 뭉개지거나 색상이 변하는 현상이 나타난다.

HiAR은 이 문제를 해결하기 위해 '계층적 디노이징'이라는 새로운 순서를 제안한다. 모든 페이지를 동시에 조금씩 써 내려가는 방식이다. 구체적으로, 현재 생성 중인 영상 블록이 참조하는 이전 블록의 상태를 '완전히 깨끗한 상태'가 아니라 '현재 블록과 동일한 노이즈 수준'으로 맞춘다. 노이즈가 섞인 상태의 정보만으로도 영상의 연속성을 유지하기에 충분하며, 오히려 이전 단계의 오류가 확정적으로 굳어지기 전에 필터링되는 효과를 얻는다.

이러한 접근 방식은 단순히 화질만 높이는 것이 아니라 연산 구조를 최적화한다. 각 단계가 이전 단계의 특정 시점에만 의존하게 되므로, 공장의 조립 라인처럼 여러 단계를 동시에 처리하는 파이프라인 병렬화가 가능해진다. 결과적으로 더 긴 영상을 더 빠르고 안정적으로 생성할 수 있게 된다.

방법론

HiAR의 핵심은 디노이징 순서의 재구성이다. 기존 방식이 블록 하나를 여러 단계 동안 모두 디노이징한 후 다음 블록으로 넘어갔다면, HiAR은 모든 블록에 대해 첫 번째 디노이징 단계를 수행하고 그 다음 두 번째 단계를 수행하는 방식을 취한다. 이때 각 블록은 동일한 노이즈 레벨에 있는 이전 블록을 조건으로 참조한다. [현재 블록의 노이즈 텐서와 이전 블록의 동일 노이즈 레벨 텐서를 입력으로] → [인과적 어텐션(Causal Attention) 연산을 수행해] → [현재 단계의 속도 벡터(Velocity)를 출력하고] → [이를 통해 다음 단계의 노이즈 레벨로 전이한다].

학습 과정에서는 Self-rollout 증류(Distillation)를 사용한다. 학생 모델이 스스로 생성한 블록을 다음 블록의 조건으로 사용하는 과정을 시뮬레이션하며 교사 모델의 분포를 따라가도록 학습한다. 이때 발생하는 '움직임 소실' 문제를 막기 위해 Forward-KL 정규화를 추가한다. [교사 모델의 다단계 궤적에서 추출한 참조점 x_ref를 입력으로] → [학생 모델이 단일 오일러 단계로 이를 예측하게 하여 MSE 손실을 계산하고] → [교사 모델의 출력 모드를 넓게 커버하도록 유도하여] → [영상의 역동성을 유지한다].

주요 결과

VBench 20초 영상 생성 벤치마크에서 HiAR은 Total Score 0.821을 기록하며 기존 SOTA 모델인 Wan2.1(0.802) 및 다른 자기회귀 모델들을 능가했다. 특히 화질(Quality) 점수에서 0.846을 기록해 계층적 디노이징이 시각적 품질 유지에 효과적임을 입증했다.

시간적 드리프트(Drift) 측정 결과, HiAR은 0.257을 기록하여 Self-Forcing(0.355)이나 CausVid(0.842) 대비 현저히 낮은 수치를 보였다. 이는 장기 생성 시 발생하는 색상 왜곡이나 세부 묘사 상실이 최소화되었음을 의미한다.

효율성 측면에서는 4단계 디노이징 설정에서 30 fps의 처리량과 0.30초의 지연 시간을 달성했다. 이는 동일한 백본을 사용하는 다른 증류 모델(17 fps, 0.69s) 대비 약 1.8배 빠른 속도이다.

기술 상세

HiAR 아키텍처는 Wan2.1-1.3B Diffusion Transformer(DiT)를 백본으로 하며, 인과적 어텐션 마스킹을 통해 자기회귀 구조를 구현한다. 핵심 차별점은 컨텍스트 노이즈 레벨을 현재 단계의 출력 노이즈 레벨과 일치시킨 점이다. 수학적으로 이 설정은 정보-편향 트레이드오프(Bias-Information Trade-off)를 최적화한다. 노이즈 레벨을 높이면 이전 블록의 예측 오류(Bias)는 감쇄되지만 유용한 신호(Information)도 줄어드는데, 현재 단계의 노이즈 레벨은 시간적 인과성을 유지하면서 오류 전파를 최소화하는 이론적 최적점이다.

학습 시 사용되는 Forward-KL 정규화는 양방향 어텐션 모드에서만 계산되며, 초기 단계에만 적용되어 고주파 세부 묘사 학습을 방해하지 않으면서도 저주파 구조(움직임)의 붕괴를 막는다. 추론 시에는 슬라이딩 윈도우 KV 캐시를 사용하여 메모리 효율을 높였으며, 비동기 점대점 통신을 통한 파이프라인 병렬화를 통해 하드웨어 활용도를 극대화했다.

실무 활용

실시간 상호작용이 필요한 긴 영상 생성 서비스나 무한히 확장 가능한 배경 영상 생성에 즉시 적용 가능하다. 낮은 지연 시간과 높은 일관성 덕분에 비디오 스트리밍 환경에 적합하다.

실시간 인터랙티브 세계 모델 구축
장편 애니메이션 또는 영화의 일관된 배경 생성
스트리밍 방식의 무한 영상 확장 서비스
저사양 하드웨어에서의 고속 영상 추론

코드 공개 여부: 공개

코드 저장소 보기

키워드

Autoregressive Diffusion(자기회귀 확산 모델)Hierarchical Denoising(계층적 디노이징)Long Video Generation(긴 영상 생성)Error Propagation(오차 전파)Pipelined Parallelism(파이프라인 병렬화)