구글, 가격은 그대로 성능은 두 배 향상된 Gemini 3.1 Pro 출시

핵심 요약

구글이 Gemini 3 Pro 출시 약 3개월 만에 추론 성능이 대폭 강화된 Gemini 3.1 Pro를 공개했다. ARC-AGI-2 벤치마크에서 77.1%를 기록하며 이전 모델 대비 두 배 이상의 추론 능력을 입증했으며, SWE-Bench Verified 80.6%, GPQA Diamond 94.3% 등 주요 지표에서 최고 수준의 성능을 보였다. 특히 기존 Gemini 3 Pro와 동일한 가격을 유지하면서 Deep Think 추론 기능을 기본 Pro 티어에 통합한 것이 특징이다. 이번 출시는 성능 향상과 가격 경쟁력을 동시에 확보하여 OpenAI와 Anthropic 등 경쟁사들에 상당한 압박을 가할 것으로 예상된다.

배경

Gemini API 사용 경험, LLM 벤치마크 지표(ARC-AGI, SWE-Bench 등)에 대한 기본 이해

대상 독자

AI 애플리케이션 개발자 및 엔터프라이즈 AI 아키텍트

의미 / 영향

구글의 공격적인 가격 정책은 고성능 추론 모델의 대중화를 앞당길 것이다. 경쟁사들도 성능 대비 가격 경쟁력을 확보하기 위해 가격 인하나 성능 개선 속도를 높여야 하는 상황에 직면하게 되었다.

섹션별 상세

Gemini 3.1 Pro는 이전 모델 출시 후 단 3개월 만에 등장하여 비약적인 성능 향상을 이뤄냈다. ARC-AGI-2 벤치마크에서 77.1%를 기록하며 추론 성능이 두 배 이상 증가했음을 증명했다. 이는 구글이 과거 .5 단위를 사용하던 중간 업데이트 방식에서 벗어나 .1 단위를 사용하며 더 빠른 릴리스 주기를 가져가고 있음을 시사한다.

기술적 지표 면에서 Gemini 3.1 Pro는 업계 최상위권의 성적을 거두었다. 소프트웨어 엔지니어링 능력을 측정하는 SWE-Bench Verified에서 80.6%, 고난도 과학 지식을 평가하는 GPQA Diamond에서 94.3%를 기록했다. 기존에 별도 모델 변체로 제공되던 Deep Think 추론 기능이 이제 메인 Pro 티어에 기본으로 포함되어 사용자 접근성이 높아졌다.

가장 큰 특징은 성능이 대폭 향상되었음에도 불구하고 API 이용 가격을 Gemini 3 Pro와 동일하게 유지했다는 점이다. 이는 사실상 모든 API 사용자에게 무료 업그레이드를 제공하는 것과 다름없다. 이러한 공격적인 가격 정책은 프리미엄 추론 모델에 높은 비용을 책정해 온 경쟁사들에게 가격 인하 압박으로 작용할 가능성이 크다.

실무 Takeaway

기존 Gemini 3 Pro 가격으로 두 배의 추론 성능을 사용할 수 있어 LLM 운영 비용 효율성이 극대화된다.
Deep Think 기능이 Pro 티어에 통합됨에 따라 복잡한 코딩이나 과학적 추론이 필요한 작업에 Gemini Pro를 더 적극적으로 활용할 수 있다.
구글의 릴리스 주기가 3개월 단위로 짧아짐에 따라 최신 모델 도입을 위한 인프라 유연성 확보가 중요해졌다.