본문으로 건너뛰기
Self-Distilled RLVR: 강화학습과 자기 증류를 결합한 안정적인 LLM 학습 프레임워크 | AI Trends