언어 모델 평가
대규모 언어 모델의 성능을 측정하기 위해 표준화된 데이터셋과 지표를 사용하는 과정이다. 정확도, 당혹도(Perplexity) 등 다양한 벤치마크를 통해 모델의 능력을 객관적으로 수치화한다.