본문으로 건너뛰기
Beyond GRPO와 On-Policy Distillation: LLM 포스트 트레이닝을 위한 경험적 Sparse-to-Dense Reward Principle | AI Trends