교차 엔트로피
모델의 예측 확률 분포와 실제 정답 분포 사이의 차이를 계산하는 손실 함수이다. 딥러닝 학습의 표준이지만, 어휘 수가 수십만 개에 달하는 대규모 언어 모델에서는 모든 토큰에 대한 로그 합을 계산해야 하므로 연산량과 메모리 부하가 매우 커지는 문제가 발생한다.