KL 발산 계수
새로운 정책이 이전 정책으로부터 급격하게 변하는 것을 방지하여 학습의 안정성을 높이고 모델이 붕괴하는 것을 막는 규제 파라미터이다.
GRPO로 72%까지 올렸는데... 소형 모델 코드 예측의 한계 돌파하기