구글, 벤치마크 기록 경신한 새로운 제미나이 3.1 프로 공개

핵심 요약

구글이 강력한 성능을 갖춘 최신 대형 언어 모델(LLM)인 제미나이 3.1 프로(Gemini 3.1 Pro)를 공개했다. 이번 모델은 작년 11월 출시된 제미나이 3의 후속 버전으로, 독립적인 벤치마크 테스트에서 이전 모델 대비 월등한 성능 향상을 입증했다. 특히 실무 지식 작업 수행 능력을 측정하는 APEX-Agents 리더보드에서 1위를 차지하며 에이전트 중심의 AI 경쟁력을 강화했다. 현재 프리뷰 버전으로 이용 가능하며 조만간 정식 출시될 예정이다.

배경

대형 언어 모델(LLM)의 기본 개념, AI 벤치마크 시스템에 대한 이해

대상 독자

AI 서비스 개발자, 기업용 AI 도입 의사결정자, LLM 연구자

의미 / 영향

구글이 에이전트 성능에서 우위를 점함에 따라 기업용 워크플로우 자동화 시장에서 제미나이의 채택 비중이 높아질 것으로 예상된다. 특히 복잡한 지식 노동을 수행하는 AI 에이전트 개발 경쟁이 더욱 가속화될 것이다.

섹션별 상세

구글은 기존 제미나이 3 모델의 성능을 크게 뛰어넘는 제미나이 3.1 프로를 프리뷰 버전으로 출시했다. 이 모델은 복합적인 추론과 에이전트 기반 작업에 최적화되어 설계되었으며, 구글은 조만간 일반 사용자들을 대상으로 정식 버전을 배포할 계획이다.

독립적인 벤치마크인 인류의 마지막 시험(Humanity’s Last Exam) 결과에 따르면, 제미나이 3.1 프로는 이전 버전인 3.0 대비 통계적으로 유의미한 성능 향상을 기록했다. 이는 구글이 모델의 추론 능력과 지식 처리 효율성을 단기간에 고도화했음을 시사한다.

AI 스타트업 머코르(Mercor)의 CEO 브렌단 푸디는 자사의 APEX-Agents 리더보드에서 제미나이 3.1 프로가 최상단에 위치했다고 밝혔다. 그는 이 결과가 AI 에이전트가 실제 전문적인 지식 노동을 수행하는 속도가 매우 빠르게 개선되고 있음을 보여주는 증거라고 평가했다.

이번 출시는 오픈AI(OpenAI)와 앤스로픽(Anthropic) 등 주요 경쟁사들이 강력한 추론 모델을 잇달아 내놓는 AI 모델 전쟁 속에서 이루어졌다. 구글은 멀티스텝 추론과 자율적인 에이전트 작업 능력을 강화함으로써 LLM 시장에서의 주도권을 유지하려는 전략을 취하고 있다.

실무 Takeaway

제미나이 3.1 프로는 APEX-Agents 리더보드 1위를 기록하며 실무 에이전트 작업에서 현존 모델 중 최고 수준의 성능을 입증했다.
Humanity’s Last Exam과 같은 고난도 벤치마크에서 이전 모델 대비 성능이 대폭 향상되어 복잡한 추론 능력이 강화되었다.
구글, 오픈AI, 앤스로픽 간의 모델 경쟁이 단순 텍스트 생성을 넘어 에이전트형 작업 수행 능력 중심으로 이동하고 있다.