미국 초청 수학 경시
AIME(American Invitational Mathematics Examination)는 모델의 고난도 수학적 추론 능력을 측정하는 벤치마크이다. 복잡한 논리 전개와 수식 계산 능력을 평가하며 최근 LLM의 지능 수준을 판가름하는 핵심 지표로 활용된다.
DeepSeek $0.30 vs GPT-5.1 $3.50 성능 차이는 단 4점?