Flash-GRPO: 한 단계 정책 최적화를 통한 비디오 확산의 효율적 정렬

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

비디오 확산 모델의 인간 선호도 정렬은 긴 denoising 궤적을 통한 역전파로 인해 막대한 계산이 필요하다. 기존의 sliding-window 서브샘플링은 계산 효율을 높이지만 최적화의 신뢰성과 안정성을 해치며 성능 한계를 초래한다. Flash-GRPO는 iso-temporal grouping과 temporal gradient rectification을 도입해 단일 timestep 학습으로 full-trajectory 수준의 성능에 근접하거나 이를 초과하면서도 계산 비용을 크게 낮춘다.

왜 중요한가

비디오 확산 모델의 인간 선호도 정렬은 긴 denoising 궤적을 통한 역전파로 인해 막대한 계산이 필요하다. 기존의 sliding-window 서브샘플링은 계산 효율을 높이지만 최적화의 신뢰성과 안정성을 해치며 성능 한계를 초래한다. Flash-GRPO는 iso-temporal grouping과 temporal gradient rectification을 도입해 단일 timestep 학습으로 full-trajectory 수준의 성능에 근접하거나 이를 초과하면서도 계산 비용을 크게 낮춘다.

핵심 기여

Iso-Temporal Grouping for Precise Credit Assignment

각 프롬프트 그룹이 동일한 timestep tk를 공유하도록 구성하고, 다른 샘플은 초기 잡음만 다르게 하여 그룹 간 reward variance를 timestep 난이도와 독립적으로 분리한다. 글로벌 배치에서 stratified sampling으로 시간 다양성을 유지하며, 각 그룹에서만 정책 기울기(gradient)를 계산해 credit assignment의 설명 가능성을 높인다.

Temporal Gradient Rectification for Balanced Optimization

SDE 디스크리타이제이션으로 인해 timestep마다 달라지는 기울기 규모 λ(t)가 커다란 편차를 유발하는 것을 보인다. 이를 1/λ(t)로 정규화하여 모든 timesteps에서 업데이트가 균일하게 반영되도록 하여 discretization로 인한 편향을 제거한다.

Flash-GRPO: Single-step Training with Full Trajectory Performance

한 번의 timestep만 샘플링하는 단일-스텝 학습으로도 full-trajectory GRPO 수준의 정렬 성능과 안정성을 달성한다. 이는 비용 감소와 함께 긴 denoising 경로의 학습 신호를 유지하는 새로운 학습 프레임워크를 제시한다.

대규모 모델에서의 확장성과 실험적 검증

1.3B에서 14B Wan2.1 계열 모델에 대해 검증한다. 350 GPU 시간의 Wan2.1-T2V-1.3B에서 Aesthetic Quality 66.43, Subject Consistency 98.70으로 최상위를 기록하고, Imaging Quality는 68.28로 전체 대비 안정적이다. Flow-GRPO-Fast1은 불안정성으로 성능 저하를 보였고, 14B에서도 안정적 개선이 지속된다.

핵심 아이디어 이해하기

:[

키워드

GRPOvideo diffusioniso-temporal groupingtemporal gradient rectificationsingle-step trainingfull trajectoryFlow-GRPOWan2.1