본문으로 건너뛰기
개인화된 그룹 상대 정책 최적화(P-GRPO): 이질적인 선호도 정렬을 위한 새로운 프레임워크 | AI Trends