본문으로 건너뛰기

gaia-benchmark

GAIA 벤치마크

중급

AI 에이전트가 도구 사용, 다단계 추론, 웹 검색 등을 통해 현실 세계의 복잡한 질문에 답하는 능력을 평가하는 데이터셋이다. 단순 지식 암기보다 실질적인 문제 해결 역량 측정에 중점을 둔다.