구글, 역대 최고 성능의 Gemini 3 공개 및 벤치마크 기록 경신

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

구글이 자사 역사상 가장 강력한 파운데이션 모델인 Gemini 3를 공식 발표했다. 이 모델은 새로운 코딩 애플리케이션과 통합되었으며, 수학, 추론, 코딩 등 주요 벤치마크에서 기존 모델들을 크게 상회하는 성적을 기록했다. 특히 Gemini 3 Deepthink라는 연구용 티어 모델도 함께 공개되어 복잡한 사고 능력을 입증했다. 이번 발표 이후 알파벳의 주가는 사상 최고치를 경신하며 시장의 긍정적인 반응을 이끌어내고 있다.

배경

LLM 벤치마크 지표에 대한 기본 이해, 에이전트 및 멀티모달 AI 개념

대상 독자

AI 연구원, 소프트웨어 엔지니어, 기술 투자자

의미 / 영향

구글이 Gemini 3를 통해 LLM 성능 경쟁에서 다시 선두를 탈환했음을 시사하며, 특히 에이전트와 수학적 추론 분야의 비약적 발전은 AI의 실무 적용 범위를 크게 넓힐 것이다.

섹션별 상세

구글은 Gemini 3를 출시하며 Gemini 앱과 AI Search 기능에 즉시 적용했다. 이 모델은 이전 세대보다 향상된 추론 능력과 멀티모달 이해력을 갖추고 있으며, 특히 코딩 작업에 최적화된 전용 앱과의 연동을 통해 개발자 생산성을 극대화한다.

함께 공개된 벤치마크 결과에 따르면, Gemini 3 Pro는 Humanity's Last Exam, AIME 2025, MathArena Apex 등 고난도 학술 및 수학 평가에서 Claude Sonnet 4.5와 GPT-5.1을 능가하는 성과를 보였다. 특히 AIME 2025 수학 벤치마크에서는 코드 실행 기능을 포함할 경우 100%의 정확도를 달성했다.

Gemini 3 Pro와 경쟁 모델들(Claude Sonnet 4.5, GPT-5.1 등)의 다양한 벤치마크 성능 비교표. — ChartGemini 3 Pro가 수학(AIME 2025), 과학 지식(GPQA), 에이전트 작업(Vending-Bench 2) 등 거의 모든 지표에서 경쟁 모델들을 압도하고 있음을 보여준다. 특히 수학 분야에서 코드 실행 시 100%를 기록한 점과 에이전트 작업에서의 큰 점수 차이가 핵심이다.

에이전트 기능과 롱 컨텍스트 처리 능력에서도 괄목할 만한 성장을 보였다. Vending-Bench 2와 같은 장기 에이전트 작업에서 타 모델 대비 압도적인 순자산 가치(Net worth)를 기록했으며, 100만 토큰 이상의 긴 문맥에서도 높은 성능을 유지하는 것으로 나타났다.

Gemini 3 출시 소식에 힘입어 알파벳의 주가는 급등했으며, 기업 가치 4조 달러 달성을 목전에 두고 있다. 시장 분석가들은 구글의 AI 기술력이 경쟁사들과의 격차를 벌리며 실질적인 비즈니스 가치로 전환되고 있다고 평가한다.

실무 Takeaway

Gemini 3 Pro는 AIME 2025 수학 벤치마크에서 코드 실행 시 100% 정확도를 기록하며 복잡한 논리 연산에서 독보적인 성능을 입증했다.
에이전트 성능 지표인 Vending-Bench 2에서 $5,478.16을 기록하여 Claude Sonnet 4.5($3,838.74)나 GPT-5.1($1,473.43)보다 뛰어난 자율 작업 수행 능력을 보여주었다.
구글은 모델 성능 향상을 넘어 코딩 전용 앱과의 결합을 통해 실질적인 워크플로우 자동화 도구로서의 입지를 강화하고 있다.