핵심 요약
사전 학습된 비디오 생성 모델이 실제 서비스 배포 시 겪는 프롬프트 민감도, 시간적 불일치, 높은 추론 비용 문제를 해결하기 위한 통합 프레임워크를 제시한다. SFT, RLHF, 프롬프트 강화, 추론 최적화를 유기적으로 연결하여 시각적 품질과 제어 가능성을 대폭 향상시켰다.
왜 중요한가
사전 학습된 비디오 생성 모델이 실제 서비스 배포 시 겪는 프롬프트 민감도, 시간적 불일치, 높은 추론 비용 문제를 해결하기 위한 통합 프레임워크를 제시한다. SFT, RLHF, 프롬프트 강화, 추론 최적화를 유기적으로 연결하여 시각적 품질과 제어 가능성을 대폭 향상시켰다.
핵심 기여
4단계 통합 사후 학습 파이프라인 구축
SFT(지도 미세 조정), RLHF(인간 피드백 기반 강화학습), PE(프롬프트 강화), AD(자기 강제 증류)를 결합하여 모델의 지시 이행 능력과 시각적 미학을 체계적으로 개선했다.
비디오 확산 모델을 위한 GRPO 최적화
가치 함수 네트워크 없이 그룹 내 상대적 보상을 활용하는 Group Relative Policy Optimization(GRPO)을 비디오 확산 모델의 확률 미분 방정식(SDE) 공식에 맞춰 최적화했다.
다차원 보상 모델 통합
비디오 미학, 이미지 미학, 모션 품질, 텍스트-비디오 정렬이라는 네 가지 핵심 지표를 보상 모델로 구축하고 이를 균형 있게 학습에 반영하는 전략을 수립했다.
자기 강제 증류를 통한 추론 효율화
Self-Forcing Distillation 기법을 적용하여 양방향 모델의 능력을 효율적인 인과적 아키텍처로 전이함으로써 생성 품질을 유지하면서도 추론 속도를 가속화했다.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 대규모 데이터로 사전 학습(Pretraining)되지만, 사용자의 복잡한 지시를 정확히 따르거나 일관된 움직임을 만드는 데 한계가 있다. 이는 사전 학습이 단순히 데이터의 분포를 모사하는 데 집중하기 때문이며, 실제 사용자의 의도와 정렬(Alignment)되는 과정이 부족하기 때문이다.
이 논문은 이를 해결하기 위해 먼저 SFT를 통해 모델이 '지시를 따르는 법'을 배우는 안정적인 기준점을 만든다. 이후 강화학습의 핵심 개념인 보상(Reward)을 활용하는데, 특히 GRPO 기법을 통해 여러 생성 결과물 사이의 상대적 우위를 비교함으로써 모델이 더 아름답고 자연스러운 움직임을 선택하도록 유도한다. 이는 별도의 복잡한 가치 평가 네트워크 없이도 효율적인 학습을 가능하게 한다.
최종적으로는 학습된 고성능 모델의 지식을 더 가벼운 구조로 옮기는 증류(Distillation) 과정을 거친다. 이때 과거의 생성 프레임을 참조하여 다음 프레임을 만드는 인과적 구조를 채택함으로써, 긴 비디오 생성 시 발생할 수 있는 오류 누적을 방지하고 실시간 서비스에 적합한 속도를 확보한다.
방법론
프레임워크는 네 가지 단계로 구성된다. 첫 번째 단계인 Supervised Fine-Tuning(SFT)에서는 엄선된 고품질 텍스트-비디오 쌍을 사용하여 모델이 다양한 제어 인터페이스에 안정적으로 반응하도록 학습시킨다.
두 번째 단계인 RLHF에서는 Group Relative Policy Optimization(GRPO)을 적용한다. 하나의 프롬프트에 대해 N개의 궤적을 샘플링하고, 각 궤적의 보상 R에서 그룹 평균을 뺀 값을 표준편차로 나누어 이점(Advantage) A를 계산한다. [보상값들 → 평균 차감 및 정규화 → 상대적 우위 수치화 → 우수한 결과의 확률을 높이는 방향으로 업데이트] 과정을 통해 모델을 최적화한다. 특히 비디오 확산 모델의 특성에 맞춰 SDE 샘플링 과정 중 특정 타임스텝에서만 확률적 업데이트를 수행하는 혼합 샘플링 전략을 사용한다.
세 번째 단계인 Prompt Enhancement(PE)는 LLM을 프롬프트 강화기로 학습시킨다. 동일한 GRPO 루프를 사용하여 사용자의 단순한 입력을 시각적 묘사가 풍부한 프롬프트로 변환하도록 유도한다. 마지막 단계인 Autoregressive Distillation(AD)은 Distribution Matching Distillation(DMD) 손실 함수를 사용하여 양방향 모델을 인과적 아키텍처로 압축하며, Self-Forcing 기법을 통해 이전 프레임의 캐시를 활용한 효율적인 생성을 구현한다.
관련 Figure

SFT, RLHF, 프롬프트 강화, 자동회귀 증류로 이어지는 파이프라인을 시각화한다. 각 단계가 어떻게 유기적으로 연결되어 모델의 지시 이행 능력과 추론 효율성을 높이는지 보여준다.
비디오 생성을 위한 4단계 사후 학습 프레임워크의 전체 구조도
주요 결과
제안된 RLHF 기법을 적용했을 때, 인간 평가 지표인 GSB(Good-Same-Bad) 기준에서 기존 모델 대비 31%의 성능 향상을 기록했다. 특히 시각적 품질과 모션의 일관성 측면에서 큰 폭의 개선이 확인되었다.
프롬프트 강화기(Prompt Enhancer)를 통합했을 때는 추가적으로 20%의 GSB 향상을 달성했다. 이는 사용자의 의도를 보존하면서도 생성 모델이 더 풍부한 세부 사항을 표현할 수 있도록 유도한 결과이다. 텍스트-비디오 정렬 보상 모델의 정확도 한계로 인해 정렬 지표의 상승 폭은 상대적으로 낮았으나, 전반적인 미학적 완성도는 크게 높아졌다.
관련 Figure

RLHF 적용 후 증기 기차의 세부 묘사, 코끼리의 움직임, 주방의 조명 효과 등이 훨씬 자연스럽고 미학적으로 개선되었음을 확인할 수 있다. 이는 제안된 프레임워크가 시각적 품질 향상에 효과적임을 입증한다.
Wan-2.1 모델에 RLHF를 적용하기 전과 후의 비디오 생성 결과 비교
기술 상세
본 연구는 비디오 확산 모델의 사후 학습을 위해 GRPO를 SDE(Stochastic Differential Equation) 공식에 통합했다. Fokker-Planck 방정식을 통해 유도된 역시간 SDE를 기반으로, 결정론적 ODE 업데이트와 확률적 SDE 업데이트를 혼합한 MixGRPO 전략을 사용한다. 이는 비디오 생성의 막대한 연산 비용을 줄이면서도 충분한 탐색(Exploration)을 가능하게 한다.
보상 모델 설계에서는 HPSv3 패러다임을 따라 Qwen3.5를 백본으로 사용하고 MLP를 통해 최종 점수를 산출한다. 다중 보상 신호를 통합할 때 발생할 수 있는 불균형 문제를 해결하기 위해 데이터 기반의 직교 그래디언트 투영(Orthogonal Gradient Projection) 기법을 활용하여 기존의 인간 선호도 지식을 보존하면서 새로운 미학적 기준을 학습시킨다. 추론 최적화 단계에서는 DMD 손실 함수를 활용해 단 몇 번의 단계만으로 고품질 비디오를 생성할 수 있는 증류 모델을 구축한다.
한계점
현재 텍스트-비디오 정렬(Text-Video Alignment)을 측정하는 보상 모델의 정확도가 시각적 미학 모델에 비해 낮아, 프롬프트 충실도 측면에서의 최적화 잠재력이 완전히 발휘되지 못했다는 한계가 있다.
실무 활용
이 프레임워크는 사전 학습된 비디오 모델을 실제 상용 서비스 수준으로 끌어올리기 위한 실전 지침을 제공한다. 특히 추론 효율화와 프롬프트 민감도 해결에 초점을 맞추고 있어 배포 비용 절감에 직접적인 도움이 된다.
- 고품질 광고 및 마케팅 영상 자동 생성 서비스
- 사용자 프롬프트에 민감하게 반응하는 대화형 비디오 편집 도구
- 실시간 스트리밍 환경을 위한 저지연 비디오 생성 엔진
- 일관된 캐릭터 움직임이 필요한 애니메이션 제작 보조 도구
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.