Mercury 2 공개: 디퓨전 기반의 세계에서 가장 빠른 추론형 LLM

핵심 요약

기존 LLM의 순차적 디코딩 방식은 에이전트나 RAG와 같은 반복 루프 환경에서 지연 시간 누적 문제를 야기한다. Inception은 이를 해결하기 위해 여러 토큰을 동시에 생성하고 정제하는 디퓨전 기반 아키텍처의 Mercury 2를 출시했다. 이 모델은 NVIDIA Blackwell GPU에서 초당 1,009토큰의 속도를 기록하며 기존 모델 대비 5배 이상의 성능 향상을 보여준다. 실시간 음성 인터페이스, 복잡한 에이전트 워크플로, 실시간 코드 편집 등 지연 시간에 민감한 프로덕션 환경에 최적화된 솔루션을 제공한다.

배경

LLM 추론 메커니즘(Autoregressive Decoding), 디퓨전 모델 기초, API 통합 지식

대상 독자

실시간 응답이 중요한 LLM 에이전트 및 프로덕션 서비스 개발자

의미 / 영향

LLM 아키텍처가 순차적 생성에서 병렬 생성(디퓨전)으로 진화하는 중요한 변곡점을 보여준다. 이는 특히 지연 시간이 병목이었던 멀티 에이전트 시스템과 실시간 인터랙티브 AI 시장의 확장을 가속화할 것이다.

섹션별 상세

Mercury 2는 기존의 오토레그레시브(Autoregressive) 방식에서 벗어나 디퓨전(Diffusion) 기반의 병렬 정제 아키텍처를 채택했다. 텍스트를 왼쪽에서 오른쪽으로 한 글자씩 쓰는 타자기 방식 대신, 전체 초안을 동시에 수정하는 편집자처럼 여러 토큰을 한꺼번에 생성한다. 이를 통해 생성 속도를 5배 이상 높였으며, 높은 지능 수준을 유지하면서도 실시간 응답이 가능한 지연 시간 예산을 확보했다.

성능 지표 면에서 Mercury 2는 NVIDIA Blackwell GPU 기준 초당 1,009토큰이라는 압도적인 처리량을 달성했다. 가격 정책은 입력 토큰 100만 개당 0.25달러, 출력 토큰 100만 개당 0.75달러로 책정되어 경제성을 확보했다. 또한 128K 컨텍스트 윈도우, 네이티브 도구 사용(Tool Use), 스키마 정렬 JSON 출력 기능을 갖추어 실제 서비스 도입에 용이하다.

이 모델은 특히 지연 시간이 사용자 경험에 직결되는 네 가지 주요 분야에서 강점을 발휘한다. 코딩 에이전트의 실시간 자동 완성, 수십 번의 추론 호출이 필요한 에이전틱 루프(Agentic Loops), 자연스러운 대화 리듬이 필수적인 실시간 음성 인터페이스, 그리고 다단계 검색이 포함된 RAG 파이프라인이 대표적이다. 각 분야의 파트너사들은 Mercury 2 도입을 통해 기존 대비 2배 이상의 속도 향상과 실시간 지능 구현이 가능해졌다고 평가한다.

개발자 편의성을 위해 Mercury 2는 OpenAI API와 호환되도록 설계되었다. 기존 코드 베이스를 대대적으로 수정할 필요 없이 엔드포인트 교체만으로 즉시 적용이 가능하다. Inception은 기업 고객을 위해 워크로드 적합성 평가, 벤치마크 설계, 실제 서빙 제약 조건 하에서의 성능 검증 등을 지원하는 파트너십 프로그램을 운영한다.

이미지 분석

Chart
Mercury 2가 1,009 t/s를 기록하며 Claude Haiku 4.5(89 t/s)나 GPT-5 Mini(71 t/s)보다 5배 이상 빠르다는 점을 시각적으로 증명한다.
Mercury 2와 타 모델 간의 초당 토큰 생성 속도 비교 차트

Chart
Mercury 2가 1.7초의 낮은 지연 시간을 유지하면서도 GPQA Diamond(74), AIME(91) 등 주요 추론 벤치마크에서 경쟁 모델 대비 우수한 성능을 보임을 나타낸다.
다양한 벤치마크 점수와 지연 시간을 정리한 모델 성능 비교표

실무 Takeaway

디퓨전 기반 병렬 디코딩을 통해 추론형 모델의 고질적인 문제인 높은 지연 시간을 획기적으로 단축했다.
초당 1,000토큰 이상의 속도와 저렴한 토큰 가격($0.25/$0.75)을 결합하여 대규모 에이전트 루프 운영 비용을 최적화할 수 있다.
OpenAI API 호환성을 제공하므로 기존 LLM 기반 서비스를 최소한의 노력으로 고속 추론 환경으로 전환 가능하다.