본문으로 건너뛰기

humanity-s-last-exam

인류의 마지막 시험

고급

AI 모델의 고도화된 학술적 추론 능력을 측정하기 위해 설계된 매우 난이도 높은 벤치마크이다. 단순 지식 암기를 넘어 복잡한 논리 전개와 문제 해결 능력을 평가하며, 현재 가장 도전적인 AI 평가 지표 중 하나로 꼽힌다.