퍼스트프루프 챌린지
AI의 실제 수학 연구 능력을 평가하기 위해 기존에 공개되지 않은 연구 수준의 문제들로 구성된 새로운 벤치마크이다.
수학 연구 수준의 난제 해결? Gemini 3 기반 에이전트의 놀라운 성과