젠슨-샤논 발산
두 확률 분포 사이의 유사성을 측정하는 통계적 방법이다. 이 연구에서는 모델의 중간 계층과 최종 계층의 토큰 예측 분포 차이를 계산하여 토큰이 얼마나 '깊게' 처리되었는지 판단하는 핵심 지표로 사용된다.
AI의 '말 많은' 추론, 오히려 독이 된다? 구글이 찾아낸 진짜 '깊은 생각'의 지표