확산 모델 정책 최적화
확산 모델의 생성 과정을 강화학습으로 최적화하는 기법이다. 모델이 생성한 여러 후보 이미지에 대해 보상 모델이 점수를 부여하고, 이 점수를 바탕으로 모델의 정책을 업데이트하여 지시 이행도나 시각적 선명도 같은 고차원적인 품질 목표를 달성하도록 유도한다.