정답셋
모델의 성능을 평가하기 위해 기준으로 삼는 실제 정답 데이터를 의미한다. RAG 시스템에서는 특정 질문에 대해 반드시 검색되어야 하는 문서나 올바른 답변의 쌍을 구성하여 벤치마크에 활용한다.