TL;DR
비디오 확산 모델의 인간 선호도 정렬은 긴 denoising 궤적을 통한 역전파로 인해 막대한 계산이 필요하다. 기존의 sliding-window 서브샘플링은 계산 효율을 높이지만 최적화의 신뢰성과 안정성을 해치며 성능 한계를 초래한다. Flash-GRPO는 iso-temporal grouping과 temporal gradient rectification을 도입해 단일 timestep 학습으로 full-trajectory 수준의 성능에 근접하거나 이를 초과하면서도 계산 비용을 크게 낮춘다.
왜 중요한가
비디오 확산 모델의 인간 선호도 정렬은 긴 denoising 궤적을 통한 역전파로 인해 막대한 계산이 필요하다. 기존의 sliding-window 서브샘플링은 계산 효율을 높이지만 최적화의 신뢰성과 안정성을 해치며 성능 한계를 초래한다. Flash-GRPO는 iso-temporal grouping과 temporal gradient rectification을 도입해 단일 timestep 학습으로 full-trajectory 수준의 성능에 근접하거나 이를 초과하면서도 계산 비용을 크게 낮춘다.
핵심 기여
Iso-Temporal Grouping for Precise Credit Assignment
각 프롬프트 그룹이 동일한 timestep tk를 공유하도록 구성하고, 다른 샘플은 초기 잡음만 다르게 하여 그룹 간 reward variance를 timestep 난이도와 독립적으로 분리한다. 글로벌 배치에서 stratified sampling으로 시간 다양성을 유지하며, 각 그룹에서만 정책 기울기(gradient)를 계산해 credit assignment의 설명 가능성을 높인다.
Temporal Gradient Rectification for Balanced Optimization
SDE 디스크리타이제이션으로 인해 timestep마다 달라지는 기울기 규모 λ(t)가 커다란 편차를 유발하는 것을 보인다. 이를 1/λ(t)로 정규화하여 모든 timesteps에서 업데이트가 균일하게 반영되도록 하여 discretization로 인한 편향을 제거한다.
Flash-GRPO: Single-step Training with Full Trajectory Performance
한 번의 timestep만 샘플링하는 단일-스텝 학습으로도 full-trajectory GRPO 수준의 정렬 성능과 안정성을 달성한다. 이는 비용 감소와 함께 긴 denoising 경로의 학습 신호를 유지하는 새로운 학습 프레임워크를 제시한다.
대규모 모델에서의 확장성과 실험적 검증
1.3B에서 14B Wan2.1 계열 모델에 대해 검증한다. 350 GPU 시간의 Wan2.1-T2V-1.3B에서 Aesthetic Quality 66.43, Subject Consistency 98.70으로 최상위를 기록하고, Imaging Quality는 68.28로 전체 대비 안정적이다. Flow-GRPO-Fast1은 불안정성으로 성능 저하를 보였고, 14B에서도 안정적 개선이 지속된다.
핵심 아이디어 이해하기
:[
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.