llm-judge
사람이 아닌 대형 언어 모델을 평가자로 활용하여 다른 모델의 응답 품질을 측정하는 방식이다. 대규모 데이터셋을 빠르고 저렴하게 평가할 수 있어 자동화된 벤치마크의 표준으로 자리 잡았다.
31개 모델을 하나로 묶는 LLM 라우팅 최적화 전략
"단순 평균의 폭주를 넘어" AI 평가가 진정한 과학으로 진화하는 법