인류의 마지막 시험
AI 모델의 고도화된 학술적 추론 능력을 측정하기 위해 설계된 매우 난이도 높은 벤치마크이다. 단순 지식 암기를 넘어 복잡한 논리 전개와 문제 해결 능력을 평가하며, 현재 가장 도전적인 AI 평가 지표 중 하나로 꼽힌다.
제미나이 3 등장, GPT-5.1과 클로드 4.5를 압도하는 성능 공개