kl-divergence
강화학습에서 새로운 정책이 기존 정책으로부터 너무 멀어지지 않도록 규제하여 학습의 안정성을 보장하는 지표로 활용된다.
DQN부터 PPO까지, 강화학습 알고리즘을 밑바닥부터 직접 구현해보세요
GRPO로 코드 예측 72% 달성했지만 정체... 돌파구는?
디코딩을 최적화 문제로 정의하여 수학 문제 해결 정확도 18.6% 향상