GAIA 벤치마크
AI 에이전트가 도구 사용, 다단계 추론, 웹 검색 등을 통해 현실 세계의 복잡한 질문에 답하는 능력을 평가하는 데이터셋이다. 단순 지식 암기보다 실질적인 문제 해결 역량 측정에 중점을 둔다.
성능은 급성장, 신뢰성은 제자리? AI 에이전트 도입의 숨은 장벽