증류 손실
타겟 모델(교사)의 지식을 보조 모델(학생)에게 전달하기 위해 두 모델의 출력 확률 분포 차이를 계산하는 손실 함수이다. 보조 모델이 타겟 모델의 복잡한 예측 패턴을 더 적은 파라미터로 효율적으로 학습하게 돕는다.