humanity-s-last-exam
인류의 마지막 시험
AI 모델의 고도화된 학술적 추론 능력을 측정하기 위해 설계된 매우 난이도 높은 벤치마크이다. 단순 지식 암기를 넘어 복잡한 논리 전개와 문제 해결 능력을 평가하며, 현재 가장 도전적인 AI 평가 지표 중 하나로 꼽힌다.
인류의 마지막 시험
AI 모델의 고도화된 학술적 추론 능력을 측정하기 위해 설계된 매우 난이도 높은 벤치마크이다. 단순 지식 암기를 넘어 복잡한 논리 전개와 문제 해결 능력을 평가하며, 현재 가장 도전적인 AI 평가 지표 중 하나로 꼽힌다.