본문으로 건너뛰기
AlphaGRPO: Decompositional Verifiable Reward를 통한 UMM에서 자가 반영형 다중모달 생성 강화 | AI Trends