심층 사고 비율
모델의 각 레이어를 통과할 때 토큰의 예측값이 얼마나 변하는지를 측정하여, 해당 토큰이 실제로 복잡한 추론 과정을 거치고 있는지 아니면 단순한 채우기 단어인지를 판별하는 지표이다. 높은 DTR은 모델이 깊은 레이어까지 정보를 처리하며 정답을 도출하고 있음을 의미한다.