CMT 벤치마크
대학원 수준의 이론 물리학 및 수학 문제를 포함하는 고난도 평가 데이터셋이다. 모델이 단순한 수식 계산을 넘어 물리적 개념의 깊은 이해와 복잡한 증명 과정을 수행할 수 있는지 측정한다.
구글, 인간 전문가도 놓친 논리적 오류 찾아내는 Gemini 3 Deep Think 공개