국제 수학 올림피아드 증명 벤치마크
국제 수학 올림피아드(IMO) 수준의 고난도 증명 문제를 AI가 얼마나 잘 해결하는지 측정하는 평가 지표이다. 단순 계산이 아닌 엄밀한 논리 전개 능력을 요구한다.