BERT 스코어
사전 학습된 BERT 모델의 임베딩을 사용하여 생성된 텍스트와 참조 텍스트 간의 유사도를 계산하는 평가 지표이다. 토큰 단위의 의미적 유사성을 포착하는 데 강점이 있으나, 대화의 전체적인 흐름이나 이전 턴의 맥락을 유지하는지 평가하는 데는 한계가 있다.