토큰 중복 F1 스코어
모델이 생성한 텍스트와 정답 텍스트 간의 토큰 일치도를 정밀도와 재현율의 조화 평균으로 계산한 지표이다. 단순 키워드 매칭보다 엄격하게 언어 모델의 생성 정확성을 평가하는 표준적인 방식이다.