비디오 생성을 위한 강화학습에서의 매니폴드 인지 탐색

비디오 생성 모델을 인간의 선호도에 맞게 정렬하는 강화학습 과정은 매우 불안정하며, 특히 탐색 과정에서 발생하는 과도한 노이즈가 영상의 품질을 망치는 고질적인 문제가 있었다. 이 논문은 수학적으로 정교한 SDE 유도와 이중 신뢰 영역 설정을 통해 비디오 데이터의 유효 영역을 벗어나지 않으면서도 효과적으로 모델을 학습시키는 방법을 제시하여 비디오 생성 AI의 실용성을 크게 높였다.

왜 중요한가

핵심 기여

매니폴드 인지 SDE 유도

비디오 데이터가 존재하는 유효 공간(매니폴드)을 벗어나지 않도록 로그 곡률 보정 항이 포함된 정밀한 확률 미분 방정식(SDE)을 유도하여 탐색 노이즈를 최적화했다.

Gradient Norm Equalizer 도입

확산 과정의 각 타임스텝별로 발생하는 그래디언트의 불균형을 해소하기 위해 최적화 압력을 정규화하는 메커니즘을 제안하여 학습의 안정성을 확보했다.

Dual Trust Region 최적화

주기적으로 갱신되는 앵커 모델을 통한 위치 제어와 단계별 KL 제약을 통한 속도 제어를 결합하여, 장기적인 학습 과정에서 모델이 붕괴되는 현상을 방지했다.

HunyuanVideo 1.5 기반 성능 입증

최신 비디오 생성 모델인 HunyuanVideo 1.5에서 시각적 품질(VQ), 움직임 품질(MQ), 텍스트 정렬(TA) 등 모든 주요 지표에서 기존 GRPO 변형 모델들을 압도하는 성능을 보였다.

핵심 아이디어 이해하기

비디오 생성 모델의 학습은 마치 거대한 안개 속에서 아주 좁고 구불구불한 산길(데이터 매니폴드)을 찾아가는 과정과 같다. 기존의 강화학습 방식은 더 좋은 길을 찾기 위해 무작위로 발을 내딛는 '탐색'을 수행하는데, 이때 사용하는 수학적 근사치가 부정확하여 산길을 벗어나 낭떠러지로 떨어지는(비디오 품질 저하) 경우가 많았다.

SAGE-GRPO는 이 문제를 해결하기 위해 두 가지 핵심 장치를 도입했다. 첫째, 발을 내딛는 보폭과 방향을 결정할 때 산길의 곡률을 수학적으로 정확히 계산(Precise SDE)하여 항상 길 안쪽에 발이 머물게 한다. 둘째, 안개가 짙은 곳(고노이즈 단계)과 옅은 곳(저노이즈 단계)에서 느껴지는 그래디언트의 강도가 수만 배씩 차이 나는 문제를 해결하기 위해, 모든 단계에서 균일한 힘으로 학습이 이루어지도록 조절 장치(Gradient Norm Equalizer)를 달았다.

결과적으로 모델은 유효한 비디오의 형태를 유지하면서도 보상을 극대화하는 방향으로 안전하게 학습할 수 있게 된다. 이는 단순히 보상 점수만 높은 '이상한 영상'을 만드는 것이 아니라, 실제로 사람이 보기에 자연스럽고 텍스트 지시사항을 정확히 따르는 고품질 비디오 생성을 가능하게 한다.

방법론

SAGE-GRPO 프레임워크는 마이크로(Micro) 수준의 샘플링 안정화와 매크로(Macro) 수준의 정책 제약으로 구성된다. 마이크로 수준에서는 Rectified Flow의 결정론적 궤적을 확률적 SDE로 변환할 때 발생하는 이산화 오차를 줄이기 위해, 확산 계수 $\epsilon_t$ 를 구간 $[\sigma_{t+1}, \sigma_t]$ 에 대해 직접 적분하여 분산 $\Sigma_t$ 를 산출한다. 이 과정에서 $\log((1-\sigma_{t+1})/(1-\sigma_t))$ 항이 추가되어 신호의 기하학적 수축을 정확히 반영하며, 이는 노이즈가 비디오 매니폴드에 접선 방향으로 유지되도록 돕는다.

또한 타임스텝에 따른 그래디언트 불균형을 해결하기 위해 Gradient Norm Equalizer를 적용한다. 그래디언트 노름이 $\Sigma_t^{-1/2}$ 에 비례하여 저노이즈 구간에서 폭주하고 고노이즈 구간에서 소멸하는 특성을 파악하고, 각 단계의 그래디언트 스케일 $N_t$ 를 추정하여 정규화 계수 $S_t$ 를 곱해준다. [입력 그래디언트 $g_t$ → 스케일 팩터 $S_t$ 연산 → 정규화된 그래디언트 $g'_t$ 출력] 과정을 통해 모든 타임스텝이 학습에 균등하게 기여하도록 만든다.

매크로 수준에서는 Dual Trust Region 목적 함수를 사용한다. 이는 $L_{KL} = \beta_{pos} D_{KL}(\pi_\theta || \pi_{ref\_N}) + \beta_{vel} D_{KL}(\pi_\theta || \pi_{k-1})$ 로 정의된다. 여기서 $\pi_{ref\_N}$ 은 $N$ 스텝마다 갱신되는 이동 앵커(Moving Anchor)로 모델의 절대적 위치를 제어하고, $\pi_{k-1}$ 은 직전 스텝의 정책으로 업데이트 속도를 제한한다. [현재 정책과 두 참조 정책의 차이 입력 → KL 발산 계산 → 가중 합산 출력] 과정을 통해 모델이 매니폴드 근처에 머물면서도 지속적으로 개선될 수 있는 가소성을 유지한다.

주요 결과

HunyuanVideo 1.5 모델을 사용한 실험에서 SAGE-GRPO는 기존의 DanceGRPO, FlowGRPO, CPS 등 최신 기법들을 모든 지표에서 능가했다. 특히 보상 모델(VideoAlign)의 점수를 극대화하는 능력뿐만 아니라, 실제 시각적 품질을 나타내는 VQ와 움직임의 자연스러움을 측정하는 MQ에서 뚜렷한 개선을 보였다. 구체적으로 Alignment-Focused 설정에서 Overall Reward 0.8066을 기록하여 baseline 대비 압도적인 성능 향상을 입증했다.

Ablation Study를 통해 Gradient Norm Equalizer가 없는 경우 학습 초기 보상이 정체되거나 불안정해지는 현상을 확인했으며, Equalizer 적용 시 보상 곡선이 훨씬 매끄럽게 상승함을 보여주었다. 또한 Dual Moving KL 전략이 고정된 KL 제약(Fixed KL)보다 더 높은 최종 보상과 우수한 시각적 디테일을 생성함을 정성적 비교를 통해 확인했다.

사용자 선호도 조사(User Study) 결과, SAGE-GRPO는 DanceGRPO 대비 시각적 품질에서 85.9%, 움직임 품질에서 75.8%, 텍스트 정렬에서 79.2%의 승률을 기록하며 실제 사람이 느끼는 품질 향상이 매우 크다는 점을 증명했다.

실무 활용

SAGE-GRPO는 고해상도 비디오 생성 모델의 사후 학습(Post-training) 및 정렬 단계에서 즉시 활용 가능한 강력한 프레임워크이다. 특히 보상 모델을 이용한 강화학습 시 발생하는 영상 깨짐이나 아티팩트 문제를 수학적으로 해결하여, 상용 수준의 비디오 생성 서비스 품질 개선에 직접적으로 기여할 수 있다.

텍스트-비디오 생성 모델의 인간 선호도 기반 미세 조정 (RLHF)
비디오 생성 과정에서의 시간적 일관성(Temporal Consistency) 및 물리적 법칙 준수 강화
특정 도메인(예: 영화 제작, 광고)에 특화된 고품질 비디오 스타일 정렬
제한된 컴퓨팅 자원 환경에서 안정적인 비디오 강화학습 수행

기술 상세

SAGE-GRPO의 핵심은 Rectified Flow 기반의 비디오 생성기를 위한 확률적 탐색 메커니즘의 재설계에 있다. 기존 방법들이 Euler 방식의 이산화 오차를 무시하고 1차 근사치를 사용한 것과 달리, 본 연구는 확산 계수의 제곱을 타임스텝 구간에 대해 적분하여 로그 항이 포함된 정확한 분산 식을 도출했다. 이는 고차원 공간에서 비디오 매니폴드의 곡률을 반영하는 효과를 가져온다.

학습 알고리즘 측면에서는 GRPO의 그룹 상대 보상 개념을 유지하면서도, 정책 업데이트 시 발생하는 수치적 불안정성을 잡기 위해 적응형 KL 가중치 스케줄링을 도입했다. 초기에는 낮은 KL 계수로 시작하여 모델이 자유롭게 탐색하게 하고, 점진적으로 계수를 높여 신뢰 영역을 좁히는 2단계 전략을 사용한다. 또한 PID 제어기와 유사한 피드백 루프를 통해 실제 관측된 KL 발산 값에 따라 가중치를 실시간으로 조절하여 최적의 학습 경로를 유지한다.

구현 세부사항으로는 HunyuanVideo 1.5(81프레임 비디오)를 대상으로 배치 사이즈 8, 20 sampling step마다 GRPO 업데이트를 수행하는 설정을 사용했다. VideoAlign을 보상 오라클로 활용하여 VQ, MQ, TA 점수를 가중 합산한 복합 보상을 최적화 목표로 삼았다.

한계점

본 논문은 주로 Rectified Flow 기반의 모델에 초점을 맞추고 있어, 다른 유형의 확산 모델 아키텍처에 대한 범용성은 추가 검증이 필요할 수 있다. 또한 보상 모델(VideoAlign) 자체의 편향이나 한계가 결과물에 반영될 가능성이 존재한다.

키워드

비디오 생성(Video Generation)강화학습(Reinforcement Learning)GRPO(그룹 상대 정책 최적화)매니폴드(Manifold)SDE(확률 미분 방정식)신뢰 영역(Trust Region)

비디오 생성을 위한 강화학습에서의 매니폴드 인지 탐색

왜 중요한가

핵심 기여

매니폴드 인지 SDE 유도

Gradient Norm Equalizer 도입

Dual Trust Region 최적화

HunyuanVideo 1.5 기반 성능 입증

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

텍스트-비디오 생성 모델의 인간 선호도 기반 미세 조정 (RLHF)
비디오 생성 과정에서의 시간적 일관성(Temporal Consistency) 및 물리적 법칙 준수 강화
특정 도메인(예: 영화 제작, 광고)에 특화된 고품질 비디오 스타일 정렬
제한된 컴퓨팅 자원 환경에서 안정적인 비디오 강화학습 수행

기술 상세

한계점

키워드

비디오 생성(Video Generation)강화학습(Reinforcement Learning)GRPO(그룹 상대 정책 최적화)매니폴드(Manifold)SDE(확률 미분 방정식)신뢰 영역(Trust Region)

비디오 생성을 위한 강화학습에서의 매니폴드 인지 탐색

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

비디오 생성을 위한 강화학습에서의 매니폴드 인지 탐색

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드