구글, 토큰당 0.25달러의 초저가 모델 Gemini 3.1 Flash-Lite 출시

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

구글이 Gemini 3 라인업 중 가장 저렴한 Gemini 3.1 Flash-Lite를 프리뷰 버전으로 공개했다. 이 모델은 100만 입력 토큰당 0.25달러라는 파격적인 가격을 제시하며, Gemini 2.5 Flash 대비 2.5배 빠른 초기 응답 속도와 45% 향상된 처리량을 제공한다. 개발자는 작업 성격에 따라 추론 수준을 직접 조절할 수 있으며, 현재 AI Studio와 Vertex AI에서 즉시 사용 가능하다. 구글은 Gemini 3 Pro의 출시를 보류하며 고성능 모델보다는 비용 효율적인 하위 모델 시장에 집중하는 전략적 변화를 보였다.

배경

LLM API 사용 경험, Google Cloud Vertex AI 또는 AI Studio 기본 지식

대상 독자

저비용 고효율 LLM 도입을 검토 중인 서비스 개발자 및 아키텍트

의미 / 영향

구글의 이번 행보는 LLM 시장의 경쟁 중심이 모델의 절대적 성능에서 가성비와 추론 효율성으로 이동하고 있음을 시사한다. 특히 Pro 모델을 포기하고 Lite 모델에 집중하는 것은 기업용 AI 시장에서 실질적인 채택률을 높이려는 전략적 선택이다.

섹션별 상세

구글은 Gemini 3.1 Flash-Lite를 출시하며 입력 토큰 100만 개당 0.25달러, 출력 토큰 100만 개당 1.50달러라는 공격적인 가격 정책을 수립했다. 이는 Gemini 3 시리즈 중 가장 낮은 가격대로, 대규모 데이터 처리나 빈번한 API 호출이 필요한 서비스의 비용 부담을 획기적으로 낮춘다.

성능 면에서 Gemini 3.1 Flash-Lite는 이전 세대인 Gemini 2.5 Flash와 비교했을 때 첫 번째 토큰 생성 시간(TTFT)이 2.5배 빨라졌으며, 전체적인 출력 처리량은 45% 증가했다. 이러한 속도 개선은 실시간 응답이 중요한 챗봇이나 대화형 인터페이스 구현에 큰 이점을 제공한다.

이 모델은 조절 가능한 사고 수준(Adjustable thinking levels) 기능을 탑재하여 최소 단계부터 높은 단계까지 추론 강도를 설정할 수 있다. 단순한 콘텐츠 모더레이션 작업에는 낮은 설정을, 복잡한 대시보드 생성이나 논리적 판단이 필요한 작업에는 높은 설정을 적용하여 효율성을 극대화한다.

구글은 Gemini 3.1 Flash-Lite 출시와 동시에 Gemini 3 Pro의 출시 계획을 조용히 철회하며 모델 라인업 전략을 수정했다. 이는 시장의 수요가 최상위 성능의 모델보다는 실제 서비스 운영 비용을 결정짓는 저비용 고효율 모델에 집중되어 있다는 판단에 따른 결정으로 해석된다.

실무 Takeaway

대량의 텍스트 분석이나 단순 반복 작업이 필요한 경우 Gemini 3.1 Flash-Lite를 도입하여 기존 대비 운영 비용을 대폭 절감할 수 있다.
실시간 사용자 인터페이스가 중요한 서비스에서는 2.5배 빨라진 TTFT를 활용해 사용자 경험을 개선하고 대기 시간을 최소화할 수 있다.
작업의 복잡도에 따라 추론 수준(Thinking levels)을 동적으로 조절하여 연산 자원과 응답 품질 사이의 최적의 균형점을 찾을 수 있다.

언급된 리소스

문서Google Launches Gemini 3.1 Flash-Lite at $0.25