이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
기존 대형 언어 모델의 자기회귀 방식은 토큰을 순차적으로 생성하여 속도와 비용 면에서 한계가 있었다. Inception Labs는 이를 해결하기 위해 확산(Diffusion) 기반의 Mercury 2 모델을 출시했다. 이 모델은 답변의 초안을 먼저 생성한 후 병렬적으로 정교화하는 방식을 통해 초당 1,000토큰 이상의 속도를 달성했다. 높은 속도에도 불구하고 주요 벤치마크에서 최상위권 성능을 유지하며 실시간 에이전트 및 음성 비서 분야의 새로운 가능성을 제시한다.
배경
LLM 추론 방식(자기회귀 vs 확산)에 대한 기본 이해, API 기반 모델 연동 지식
대상 독자
실시간 응답이 중요한 AI 에이전트 및 음성 비서 개발자
의미 / 영향
LLM의 고질적인 문제인 지연 시간을 확산 모델 아키텍처로 해결함으로써, 진정한 실시간 상호작용이 가능한 AI 서비스 대중화의 기틀을 마련했다.
섹션별 상세
Mercury 2는 기존 Google이나 OpenAI가 사용하는 자기회귀(Auto-regressive) 방식에서 벗어나 확산(Diffusion) 모델을 언어 생성에 도입했다. 자기회귀 방식이 타자기처럼 한 단어씩 순차적으로 생성하는 것과 달리, Mercury 2는 전체 답변의 대략적인 버전을 먼저 만든 후 이를 병렬적으로 수정하고 다듬는 편집자 방식을 취한다. 이를 통해 추론 과정에서의 병렬 처리가 가능해져 속도가 비약적으로 향상되었다.
벤치마크 결과 Mercury 2는 초당 약 1,000토큰의 처리량(Throughput)을 기록했다. 이는 Claude 4.5 Haiku(89 t/s)나 GPT-5 mini(71 t/s)보다 10배 이상 빠른 수치이다. 또한 비용 측면에서도 입력 토큰당 0.25달러, 출력 토큰당 0.75달러(100만 토큰 기준)로 책정되어 경쟁 모델 대비 2.5배에서 6.5배가량 저렴하여 실시간 AI 에이전트 구현에 최적화되어 있다.

속도 향상이 품질 저하로 이어지지 않았음을 벤치마크 수치로 입증했다. AIME 2025 수학 벤치마크에서 91.1점을 기록했으며, GPQA(과학) 및 IFBench(지시 이행)에서도 우수한 성적을 거두었다. 또한 128K 컨텍스트 윈도우, 도구 사용(Tool use), JSON 출력 기능을 지원하여 복잡한 애플리케이션 개발에 유연하게 대응할 수 있다.

세차장 테스트와 기사 요약 테스트를 통해 실제 환경에서의 추론 능력과 속도를 검증했다. 낮은 추론 노력 설정에서는 단순한 답변을 제공하지만, 설정을 높이면 세차장의 종류에 따른 상황별 권장 사항을 제시하는 등 정교한 논리 전개를 보여주었다. 특히 대규모 기사 요약 작업에서 ChatGPT가 35초 이상 소요된 반면, Mercury 2는 3초 이내에 결과를 도출하며 실전 성능을 나타냈다.


실무 Takeaway
- 실시간 응답이 필수적인 음성 비서나 검색 도구 개발 시, 확산 기반의 Mercury 2를 도입하여 지연 시간을 2초 미만으로 단축할 수 있다.
- 대규모 컨텍스트 처리가 필요한 RAG 시스템 구축 시, 기존 모델 대비 최대 90% 이상의 비용 절감 효과를 얻을 수 있다.
- 모델의 추론 노력(Reasoning effort) 설정을 조정하여 작업의 복잡도에 따라 성능과 자원 효율성을 유연하게 관리할 수 있다.
언급된 리소스
API DocsAPI Early Access Platform
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 02. 28.수집 2026. 03. 01.출처 타입 RSS
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.