LLM 기반 평가자
사람이 아닌 대형 언어 모델을 평가자로 활용하여 다른 모델의 응답 품질을 측정하는 방식이다. 대규모 데이터셋을 빠르고 저렴하게 평가할 수 있어 자동화된 벤치마크의 표준으로 자리 잡았다.