구글, 추론 능력과 에이전트 성능 강화한 Gemini 3.1 Pro 공개

핵심 요약

구글이 Gemini 3 시리즈의 첫 번째 버전 업데이트인 Gemini 3.1 Pro를 발표하며 에이전트 중심의 AI 시장 공략을 가속화한다. 이번 업데이트는 단순한 대화형 AI를 넘어 파일 시스템 탐색, 코드 실행, 과학적 문제 해결 등 실질적인 업무를 수행하는 자율 에이전트의 핵심 엔진으로 설계되었다. 100만 토큰의 입력 컨텍스트를 유지하면서 출력 제한을 65k로 대폭 늘려 장문 생성 능력을 강화했으며, 특히 ARC-AGI-2 벤치마크에서 이전 모델 대비 2배 이상의 추론 성능 향상을 기록했다. 또한 개발자를 위한 전용 엔드포인트와 새로운 파일 처리 기능을 도입하여 에이전트 개발 환경의 효율성을 극대화했다.

배경

Gemini API 사용 경험, LLM 에이전트 및 도구 사용(Tool Use) 개념에 대한 이해

대상 독자

자율 AI 에이전트 및 복잡한 코딩 보조 도구를 구축하는 소프트웨어 엔지니어 및 AI 개발자

의미 / 영향

Gemini 3.1 Pro는 추론 성능을 비약적으로 높이면서도 경쟁 모델 대비 절반 수준의 비용을 유지하여 에이전트 시장의 경제성을 확보했다. 이는 기업들이 고성능 추론 모델을 프로덕션 환경에 더 적극적으로 도입하게 만드는 계기가 될 것이다.

섹션별 상세

Gemini 3.1 Pro는 100만 토큰의 방대한 입력 컨텍스트 윈도우를 유지하여 개발자가 중간 규모의 코드 저장소 전체를 입력하고 파일 간 의존성을 파악할 수 있게 한다. 특히 출력 제한이 65k 토큰으로 크게 늘어나 100페이지 분량의 기술 매뉴얼이나 복잡한 다중 모듈 파이썬 애플리케이션을 단 한 번의 호출로 생성할 수 있다. 이는 장문 생성이 필요한 워크플로에서 토큰 제한으로 인해 작업이 중단되는 문제를 해결한다.

논리적 사고 능력을 측정하는 ARC-AGI-2 벤치마크에서 77.1%를 기록하며 기존 Gemini 3 Pro 대비 두 배 이상의 성능 향상을 달성했다. 대학원 수준의 과학적 추론을 평가하는 GPQA Diamond에서도 94.1%라는 높은 점수를 기록하여 단순한 패턴 매칭을 넘어선 고차원적 사고 능력을 입증했다. 이러한 성능 향상은 모델이 학습 데이터에 없는 새로운 엣지 케이스에 직면했을 때 스스로 해결책을 찾아내는 능력이 강화되었음을 의미한다.

개발자가 bash 명령과 사용자 정의 함수를 혼합하여 사용할 수 있도록 최적화된 gemini-3.1-pro-preview-customtools 엔드포인트를 새롭게 출시했다. 이 엔드포인트는 도구 사용 시 발생할 수 있는 환각 현상을 줄이고 view_file이나 search_code와 같은 시스템 도구를 우선적으로 사용하도록 튜닝되어 자율 코딩 에이전트의 신뢰성을 높인다. 또한 구글의 새로운 에이전트 개발 플랫폼인 Antigravity와 통합되어 복잡도에 따라 추론 예산을 조절할 수 있는 기능을 제공한다.

v1beta Interactions API에서 total_reasoning_tokens 필드가 total_thought_tokens로 변경되는 중대한 변경 사항이 포함되어 기존 개발자들의 코드 수정이 필요하다. 파일 처리 측면에서는 API 업로드 용량 제한이 20MB에서 100MB로 5배 확장되었으며, 유튜브 URL을 직접 전달하여 모델이 영상을 분석하게 하는 기능이 추가되었다. 클라우드 스토리지 버킷 및 프라이빗 데이터베이스의 사전 서명된 URL을 직접적인 데이터 소스로 지원하여 데이터 접근성도 개선되었다.

실무 Takeaway

100만 토큰 입력과 65k 토큰 출력 지원으로 대규모 코드 베이스 분석 및 장문 문서 생성 효율 극대화
ARC-AGI-2 벤치마크 77.1% 달성을 통해 복잡한 논리 문제 해결 및 자율 에이전트의 추론 안정성 확보
전용 커스텀 툴 엔드포인트와 Antigravity 플랫폼 통합으로 실질적인 도구 사용 및 비용 효율적인 추론 제어 가능
유튜브 URL 직접 분석 및 100MB 파일 업로드 지원으로 멀티모달 데이터 처리 워크플로 단순화

언급된 리소스

문서Gemini 3.1 Pro Technical Details