MMLU-Pro
대규모 다중 작업 언어 이해(MMLU)의 확장판으로, 더 어렵고 추론이 필요한 문제들로 구성된 벤치마크이다. 모델의 전반적인 지식과 사고 능력을 측정하는 핵심 지표로 활용된다.
35B 모델이 120B를 압도? Qwen 3와 GPT-5 벤치마크 결과 공개