정책 엔트로피
모델이 응답을 생성할 때 얼마나 다양한 전략을 탐색하고 있는지를 나타내는 척도이다. 높은 엔트로피는 모델이 아직 불확실성을 가지고 다양한 시도를 하고 있음을 의미하며, 너무 낮으면 특정 답변에만 고착되는 모드 붕괴 위험이 있다. 학습 과정에서 건강한 탐색이 이루어지고 있는지 판단하는 지표로 쓰인다.