그라운드 트루스 세트
모델이 정답으로 간주해야 하는 기준 데이터셋이다. AI 모델의 성능을 평가하고 할루시네이션을 방지하기 위한 절대적인 벤치마크 역할을 하며 사람이 직접 검수하여 품질 상한선을 결정한다.