KL 정규화 강화학습
정책 최적화 목적식에 참조 정책(reference)과의 Kullback-Leibler 발산을 페널티로 추가하여 급격한 정책 변화와 분포 붕괴를 억제하는 기법이다. 페널티 계수 β를 통해 탐색·보수성 균형을 제어하며, 논문은 이러한 정규화 조건에서 로그확률비가 어드밴티지로 해석됨을 보였다. 이 성질은 포스트트레이닝 체크포인트 쌍에서 단계별 신호를 얻는 기반이 된다.