본문으로 건너뛰기

llm-as-a-judge

판사로서의 LLM

중급

성능이 뛰어난 대형 언어 모델을 활용하여 다른 모델이나 에이전트의 응답 품질, 작업 수행 궤적 등을 사전에 정의된 기준에 따라 자동으로 평가하는 기법이다.