젠슨-샤논 발산
두 확률 분포 간의 유사성을 측정하는 척도로, KL Divergence와 달리 대칭적이며 0과 log 2 사이의 유한한 값을 가진다. 본 논문에서는 베이스 모델과 RL 모델의 토큰 예측 확률 차이를 정량화하여 어떤 위치에서 학습이 집중적으로 일어났는지 분석하는 핵심 지표로 사용된다.