Astrolabe: 증류된 자기회귀 비디오 모델을 위한 전방향 프로세스 강화학습 제어

왜 중요한가

기존의 고성능 비디오 생성 모델은 연산량이 너무 많아 실시간 활용이 어려웠고, 효율적인 모델은 영상의 품질이나 움직임이 부자연스러운 문제가 있었다. Astrolabe는 적은 메모리로도 사람의 선호도를 반영할 수 있는 새로운 강화학습 프레임워크를 제시하여, 저사양 환경에서도 장편 고품질 영상을 생성할 수 있게 한다.

핵심 기여

전방향 프로세스 강화학습 공식화

복잡한 역방향 궤적 추적 없이 추론 종단점에서 직접 긍정 및 부정 샘플을 대조하여 정책을 개선하는 효율적인 온라인 강화학습 방식을 도입했다.

메모리 효율적 스트리밍 학습 체계

Rolling KV-cache와 Frame Sinks 기법을 결합하여 비디오 길이가 길어져도 학습 시 메모리 점유율을 일정하게 유지하는 스트리밍 롤아웃 전략을 제안했다.

불확실성 기반 선택적 규제 기법

보상 모델들 간의 순위 불일치를 통해 보상 해킹 가능성을 탐지하고, 위험한 샘플에만 선택적으로 KL Penalty를 적용하여 학습 안정성을 확보했다.

핵심 아이디어 이해하기

기존 비디오 생성 모델은 모든 프레임을 한꺼번에 처리해야 해서 메모리 소모가 극심했다. 이를 해결하기 위해 프레임을 하나씩 순차적으로 만드는 자기회귀(AR) 방식이 등장했지만, 단순히 기존 모델을 흉내 내는 수준에 그쳐 움직임이 어색하거나 화질이 떨어지는 한계가 있었다. Astrolabe는 이 효율적인 AR 모델에 '사람이 좋아하는 영상'의 기준을 직접 가르치기 위해 강화학습을 결합했다. 핵심 아이디어는 요리 과정 전체를 감시하는 대신 완성된 요리의 맛만 보고 조리법을 수정하는 것처럼, 생성된 결과물에서 직접 보상을 계산하는 전방향 프로세스(Forward-process) 방식을 사용하는 것이다. 또한 영상이 길어질수록 과거 정보를 모두 기억하느라 메모리가 폭발하는 문제를 해결하기 위해, 꼭 필요한 핵심 프레임과 최근 정보만 골라 담는 'Rolling KV-cache' 주머니를 활용했다. 이를 통해 모델은 아무리 긴 영상이라도 지치지 않고 일정한 메모리만 사용하여 고품질의 결과물을 만들어낼 수 있게 된다.

방법론

전방향 프로세스 강화학습(Forward-process RL)은 DiffusionNFT의 원리를 자기회귀 구조에 맞게 최적화했다. [생성된 샘플 x와 정규화된 보상 r을 입력으로] → [현재 정책과 이전 정책의 속도 예측치를 보간하여 긍정/부정 정책을 정의하고 목표 속도와의 오차를 계산하는 연산을 수행해] → [정책 손실 함수를 도출하고] → [역방향 궤적 저장 없이 가중치를 갱신하여 연산 효율성을 극대화한다].

스트리밍 롤아웃(Streaming Rollout) 전략은 장편 비디오 학습을 위해 설계됐다. [전체 프레임 이력을 입력으로] → [영구 보존할 Frame Sink와 최근 정보를 담는 Rolling Window만 유지하는 연산을 수행해] → [고정된 크기의 KV 캐시를 생성하고] → [비디오 길이에 관계없이 일정한 피크 메모리 사용량을 유지하며 학습을 진행한다].

보상 해킹 방지를 위한 선택적 규제(Selective Regularization)는 다중 보상 체계를 활용한다. [주 보상 모델과 보조 모델들 간의 순위 불일치도를 입력으로] → [불확실성이 높은 샘플을 식별하는 마스킹 연산을 수행해] → [해당 샘플에만 KL Penalty를 적용하고] → [고품질 샘플의 학습 자유도는 보장하면서 보상 함수의 허점을 공략하는 행위는 억제한다].

주요 결과

VBench 벤치마크 실험 결과, Astrolabe는 Self-Forcing, LongLive, Causal Forcing 등 기존의 모든 증류된 AR 모델의 성능을 일관되게 향상시켰다. 특히 시각적 품질(HPSv3)과 움직임 품질(MQ) 지표에서 유의미한 상승을 기록했으며, 텍스트 일치도 또한 개선되었다. 주목할 점은 이러한 품질 향상을 이루면서도 원본 모델의 빠른 추론 속도를 그대로 유지했다는 것이다.

장편 비디오 생성 성능(VBench-Long)에서도 탁월한 결과를 보였다. 5초 내외의 짧은 영상으로 학습했음에도 불구하고, 제안된 스트리밍 학습 기법 덕분에 30초 이상의 긴 영상에서도 일관된 품질과 자연스러운 움직임을 유지했다. 이는 짧은 문맥에서의 최적화가 장기적인 시퀀스로 효과적으로 전이될 수 있음을 시사한다.

소거 연구(Ablation Study)를 통해 각 구성 요소의 유효성을 입증했다. 단일 보상만 사용할 경우 모델이 정지 화면을 만드는 보상 해킹에 빠지기 쉬웠으나, 시각·움직임·텍스트 일치도를 결합한 다중 보상 설계가 이를 방지했다. 또한 선택적 KL 규제가 균일한 규제보다 더 높은 품질과 안정적인 수렴을 동시에 달성함을 확인했다.

실무 활용

Astrolabe는 실시간 비디오 스트리밍 서비스나 저사양 GPU 환경에서의 고품질 영상 제작에 즉시 활용될 수 있는 강력한 프레임워크이다. 기존 모델의 구조를 변경하지 않고도 사후 학습(Post-training)만으로 품질을 획기적으로 개선할 수 있다.

실시간 대화형 AI 아바타 및 화상 회의 시스템의 영상 품질 개선
개인용 워크스테이션에서의 고품질 장편 애니메이션 및 영화 예고편 제작
사용자 선호도 데이터를 기반으로 한 특정 화풍이나 연출 스타일의 비디오 모델 최적화

기술 상세

본 연구는 증류된 자기회귀 비디오 확산 모델을 위한 최초의 온라인 강화학습 프레임워크를 제안한다. 핵심 기술적 차별점은 Solver-agnostic한 전방향 정책 최적화로, 특정 수치 해석 기법에 의존하지 않아 다양한 모델 아키텍처에 범용적으로 적용 가능하다. 수학적으로는 로컬 어드밴티지 가이던스(Local Advantage Guidance)가 전체 정책을 개선함을 증명하여 이론적 완결성을 높였다.

아키텍처 측면에서는 LoRA(Low-Rank Adaptation)를 적극 활용하여 메모리 효율을 극대화했다. 현재 학습 중인 정책과 참조 정책이 하나의 동결된 베이스 모델을 공유하며, 가벼운 LoRA 가중치만 교체하는 방식으로 GPU 메모리 오버헤드를 최소화했다. 이는 48개의 NVIDIA H200 GPU 환경에서 대규모 모델을 안정적으로 학습할 수 있게 한 핵심 요인이다.

학습 전략에서는 'Streaming Long Tuning'을 도입하여 훈련과 테스트 간의 문맥 길이 불일치 문제를 해결했다. 과거의 KV 캐시를 계산 그래프에서 분리(Detach)하여 이력 정보로만 활용함으로써, 역전파 시 메모리 사용량이 비디오 길이에 비례해 증가하는 문제를 원천적으로 차단했다. 이를 통해 일정한 피크 메모리 내에서 무한한 길이의 비디오 학습이 가능해졌다.

한계점

Astrolabe는 보상 모델의 정확도에 전적으로 의존한다. 현재의 오픈소스 보상 모델들은 복잡한 물리 법칙이나 아주 긴 시간대의 인과관계를 완벽히 평가하지 못하므로, 보상 모델이 인지하지 못하는 미세한 물리적 오류는 수정하기 어렵다. 또한 베이스 모델이 아예 갖추지 못한 근본적인 생성 능력(예: 극도로 복잡한 기하학적 구조)을 강화학습만으로 새로 창조해낼 수는 없다는 한계가 있다.

키워드

AR(자기회귀 모델)RL(강화학습)Distillation(지식 증류)KV-cache(KV 캐시)Video Generation(비디오 생성)