블루 스코어
기계 번역이나 텍스트 생성 결과가 정답 문장과 얼마나 유사한지 측정하는 지표로, n-gram 정밀도를 기반으로 모델의 정확도를 평가한다. 수치가 높을수록 인간이 작성한 텍스트와 유사함을 의미하며 모델의 생성 품질을 객관적으로 비교하는 데 필수적이다.