Helios: 실시간 장편 비디오 생성을 위한 14B 파라미터 모델

왜 중요한가

기존 비디오 생성 모델은 수 초 분량의 영상을 만드는 데 수십 분이 걸리거나 영상이 길어질수록 화질이 급격히 저하되는 문제가 있었다. Helios는 14B 규모의 대형 모델임에도 불구하고 실시간에 가까운 속도로 일관성 있는 장편 영상을 생성할 수 있어 게임 엔진이나 인터랙티브 미디어 분야의 혁신을 가능하게 한다.

핵심 기여

실시간 추론 성능 확보

14B 파라미터 모델을 단일 NVIDIA H100 GPU에서 19.5 FPS 속도로 실행 가능하게 하여 기존 대형 모델 대비 약 128배의 속도 향상을 달성했다.

장기 일관성 유지 기법 도입

Relative RoPE, First-Frame Anchor, Frame-Aware Corrupt 전략을 통해 별도의 복잡한 휴리스틱 없이도 분 단위 영상에서 발생하는 드리프트 현상을 효과적으로 억제했다.

Deep Compression Flow 설계

Multi-Term Memory Patchification과 Pyramid Unified Predictor Corrector를 도입하여 토큰 연산량을 1.3B 모델 수준으로 대폭 압축하면서도 고화질을 유지했다.

Adversarial Hierarchical Distillation 제안

DMD 기반 증류 학습에 적대적 학습과 계층적 구조를 결합하여 샘플링 단계를 50단계에서 3단계로 줄이는 데 성공했다.

핵심 아이디어 이해하기

기존 비디오 생성은 Transformer의 Self-Attention을 기반으로 하며 프레임이 늘어날수록 연산량이 시퀀스 길이의 제곱으로 증가하는 한계가 있다. 특히 장편 영상 생성 시 과거 프레임의 정보를 모두 참조하면 메모리 부족이 발생하거나 과거 정보가 현재 생성에 노이즈로 작용해 색상이나 형태가 변하는 드리프트 현상이 나타난다.

Helios는 이를 해결하기 위해 계층적 메모리 압축 방식을 사용한다. 가까운 과거는 세밀하게, 먼 과거는 거칠게 압축하여 참조함으로써 고정된 연산 비용으로도 훨씬 긴 맥락을 유지한다. 또한 학습 과정에서 의도적으로 드리프트 상황을 시뮬레이션하는 Frame-Aware Corrupt 기법을 통해 모델이 스스로 오류를 복구하는 능력을 갖추게 했다.

결과적으로 14B라는 거대 모델의 표현력을 유지하면서도 실제 연산에 필요한 토큰 수는 소형 모델 수준으로 줄였다. 이는 고해상도 영상의 디테일을 놓치지 않으면서도 실제 사용자와의 실시간 상호작용이 가능한 수준의 속도를 보장하는 핵심 원리가 된다.

방법론

Unified History Injection 및 Representation Control을 통해 과거 컨텍스트와 노이즈 컨텍스트를 결합하여 입력하며, 과거 정보의 구성에 따라 T2V, I2V, V2V 작업을 자동으로 전환한다. [과거 프레임과 현재 노이즈를 채널 방향으로 결합 → Transformer 입력 → 다음 프레임 예측 → 연속적인 영상 생성]

Guidance Attention 및 Multi-Term Memory Patchification을 도입했다. 과거 정보가 현재 생성에 미치는 영향을 헤드별로 조절하는 amp 토큰을 사용한다. [과거 키(K_Hist)에 amp 값을 곱함 → Self-Attention 수행 → 중요한 과거 정보 선택적 증폭 → 시간적 일관성 강화]. 또한 과거 프레임을 거리별로 다른 커널 크기로 압축하여 토큰 수를 약 8배 절감했다.

Pyramid Unified Predictor Corrector는 저해상도에서 고해상도로 점진적으로 샘플링하는 다단계 구조를 채택했다. [저해상도 노이즈 입력 → ODE 기반 속도 필드 학습 → 업샘플링 및 디테일 보정 → 고해상도 영상 출력]. 이를 통해 전체 연산량을 획기적으로 줄여 실시간성을 확보했다.

주요 결과

단일 H100 GPU에서 19.5 FPS의 처리량을 기록했다. 이는 동일 규모 모델인 Wan2.1 14B(0.33 FPS) 대비 약 59배 빠르며, 1.3B 규모의 증류 모델들보다도 높은 속도이다.

HeliosBench 벤치마크에서 81프레임부터 1440프레임까지 모든 구간에서 기존 모델들을 압도했다. 특히 장편 영상의 품질을 측정하는 Drifting Score에서 가장 높은 점수를 획득하여 장기 안정성을 입증했다.

사용자 평가 결과 단거리 및 장거리 영상 생성 모두에서 기존 SOTA 모델들보다 높은 선호도를 보였다. 특히 색상 왜곡이나 반복적인 움직임이 현저히 적고 텍스트 프롬프트와의 정렬 상태가 우수한 것으로 나타났다.

실무 활용

실시간성이 요구되는 대화형 AI 서비스나 게임 엔진 내 동적 콘텐츠 생성에 즉시 적용 가능하다. 단일 GPU로 구동 가능하여 인프라 비용 효율성이 매우 높다.

게임 내 실시간 환경 및 이벤트 영상 생성
사용자 프롬프트에 즉각 반응하는 인터랙티브 비디오 에이전트
저비용 고효율의 장편 광고 및 애니메이션 제작 보조
가상 환경 시뮬레이션을 위한 월드 모델 구축

기술 상세

아키텍처는 14B 파라미터의 Autoregressive Diffusion Transformer를 기반으로 하며, 인과적 마스킹 대신 양방향 추론을 보존하는 Unified History Injection을 사용한다.

Relative RoPE를 도입하여 학습 시 경험하지 못한 긴 시퀀스에서도 위치 정보의 주기성 문제를 해결하고 반복적인 움직임을 방지했다.

Adversarial Hierarchical Distillation은 DMD를 확장하여 실제 데이터를 과거 컨텍스트로만 사용하는 Pure Teacher Forcing 전략을 통해 학습 효율을 극대화했다.

인프라 최적화를 위해 Triton 기반의 Flash Normalization과 Flash RoPE 커널을 구현하여 메모리 대역폭 활용도를 높이고 중간 활성화 값을 최소화했다.

한계점

현재 실험은 384x640 해상도로 제한되어 있어 더 높은 고해상도 설정에 대한 추가 연구가 필요하다. 또한 생성된 세그먼트 간의 경계에서 미세한 깜빡임 현상이 발생할 수 있다.

키워드

Video Generation(비디오 생성)Autoregressive Diffusion(자기회귀 확산 모델)Real-time AI(실시간 AI)Long Video Consistency(장편 영상 일관성)Model Distillation(모델 증류)