llm-as-a-judge
성능이 뛰어난 대형 언어 모델을 활용하여 다른 모델이나 에이전트의 응답 품질, 작업 수행 궤적 등을 사전에 정의된 기준에 따라 자동으로 평가하는 기법이다.
RAG 시스템의 실패 원인을 정확히 짚어내는 3가지 핵심 지표와 평가 전략
RAG 성능, 단순 결과만 보지 마세요: 3대 핵심 지표로 진단하는 법
단순 생성을 넘어 데이터 공장으로: AI 에이전트가 요구하는 거대 인프라
감(Vibe)으로 하는 검색 랭킹 테스트는 그만, LLM으로 정밀 평가하기
GPT-5.2의 굴욕? LLM 판별자 테스트에서 드러난 의외의 가성비 모델