본문으로 건너뛰기
Auto-Rubric-as-Reward: 암시적 선호에서 명시적 다중모달 생성 기준으로의 전환과 Rubric Policy Optimization을 통한 학습 | AI Trends