핫팟QA
여러 문서에 흩어진 정보를 결합하여 답을 찾아야 하는 멀티홉(Multi-hop) 질의응답 성능을 측정하는 벤치마크 데이터셋이다. 에이전트의 복합적인 추론 능력을 평가하는 데 중요한 지표로 활용된다.