인류의 마지막 시험 (Humanity's Last Exam)
AI 모델의 고도화된 추론 능력을 측정하기 위해 설계된 매우 난이도 높은 벤치마크이다. 단순 지식 암기를 넘어 복잡한 문제 해결 능력을 평가하며, AGI 도달 여부를 판단하는 주요 지표 중 하나로 활용된다.