본문으로 건너뛰기
온-폴리시 증류: 강화학습의 효율성과 증류의 밀도 높은 보상을 결합한 LLM 사후 학습 | AI Trends