BLEU/ROUGE
기계 번역이나 요약 성능을 측정하기 위해 정답지와 생성문 간의 단어 중복도를 계산하는 결정론적 지표이다. 의미적 유사성을 파악하지 못해 생성형 AI 평가에는 한계가 있다.
사람보다 빠른 AI 평가자? LLM-as-a-Judge로 평가 자동화하기