젠슨-샤논 발산
두 확률 분포 사이의 유사성을 측정하는 통계적 방법이다. 이 연구에서는 모델의 중간 계층과 최종 계층의 토큰 예측 분포 차이를 계산하여 토큰이 얼마나 '깊게' 처리되었는지 판단하는 핵심 지표로 사용된다.