트루스풀QA
LLM이 얼마나 진실된 답변을 하는지 측정하기 위해 고안된 벤치마크 데이터셋이다. 모델이 흔히 저지르는 오개념이나 환각을 유도하는 질문들로 구성되어 성능 평가의 척도로 쓰인다.