질문 답변 생성 점수
LLM이 텍스트에서 주장을 추출하고 이에 대한 폐쇄형 질문을 생성하여 정답 여부를 판단하는 방식이다. 직접 점수를 매기지 않고 논리적 일치 여부만 확인하므로 신뢰도가 높으며, 특히 RAG 시스템의 충실도(Faithfulness)를 측정할 때 할루시네이션을 효과적으로 잡아낸다.