gaia
인간에게는 쉽지만 AI에게는 어려운 일상적인 도구 사용 및 추론 과제를 평가하는 데이터셋이다. 에이전트의 실제 세상 상호작용 능력을 측정하는 데 중점을 둔다.
정적 벤치마크의 종말, 이제는 자율 실행 에이전트의 시대