본문으로 건너뛰기
TDM-R1: 비미분 보상을 활용한 소수 단계 확산 모델의 강화학습 | AI Trends