mmlu
언어 모델의 지식과 문제 해결 능력을 측정하기 위해 57개의 다양한 주제를 다루는 벤치마크이다. 모델의 전반적인 지능 수준을 평가하는 표준 지표로 활용된다.
구글 제미나이 3 공개, GPT-5.1 압도하는 벤치마크 성능 확인