AI 평가자
AI를 평가자로 활용하는 기법이다. 다른 고성능 LLM을 사용하여 대상 모델의 응답 품질, 논리성, 안전성 등을 사전에 정의된 기준에 따라 채점하는 방식이다. 사람이 직접 평가하기 어려운 대규모 데이터를 빠르고 일관되게 검증할 수 있어 에이전트 평가에 널리 쓰인다.
"에이전트 추론이 나빠지고 있나요?" 신뢰할 수 있는 평가 지표 찾기