인류의 마지막 시험 (Humanity's Last Exam)
AI 모델의 고도화된 추론 능력을 측정하기 위해 설계된 매우 난이도 높은 벤치마크이다. 단순 지식 암기를 넘어 복잡한 문제 해결 능력을 평가하며, AGI 도달 여부를 판단하는 주요 지표 중 하나로 활용된다.
35B 모델이 120B를 압도? Qwen 3와 GPT-5 벤치마크 결과 공개
"정답이 틀렸다?" GPQA와 HLE 벤치마크 데이터의 충격적인 품질 결함 폭로