충실도
생성된 답변이 제공된 검색 문맥(Context)에 얼마나 근거하고 있는지를 측정하는 지표이다. 답변이 문맥에서 벗어난 정보를 포함하지 않을수록 높은 점수를 받으며, 환각 여부를 판단하는 주요 척도로 활용된다.
운영 환경의 LangChain 에이전트 품질, 어떻게 유지하시나요?
수동 체크는 이제 그만, RAG 성능 회귀를 잡는 자동화 평가 전략