분포 샤프닝
분포 샤프닝은 확률 분포에서 높은 확률을 가진 후보의 가중치를 더 높여 분포를 더욱 뾰족하게 만드는 과정입니다. 모델이 특정 답변에 대해 가지는 확신을 강화하는 메커니즘으로 작용하며, 비지도 강화학습에서 모델이 스스로 선택한 답을 정답으로 간주하고 학습할 때 나타나는 주요 현상입니다.