머큐리 2: 확산 모델 기반의 초고속 추론 AI 모델 등장

핵심 요약

인셉션 랩스(Inception Labs)가 개발한 머큐리 2(Mercury 2)는 기존 대형 언어 모델의 고질적인 문제인 지연 시간(Latency)을 혁신적으로 해결한 모델이다. 대부분의 모델이 단어를 하나씩 생성하는 자기회귀(Auto-regressive) 방식을 사용하는 것과 달리, 머큐리 2는 이미지 생성에서 주로 쓰이던 확산(Diffusion) 기법을 텍스트 생성에 적용했다. 이를 통해 초당 1,000토큰이라는 압도적인 처리 속도를 달성했으며, 복잡한 추론 작업에서도 경쟁 모델 대비 10배 이상의 속도 우위를 점한다. 결과적으로 실시간 음성 비서나 코드 어시스턴트 등 즉각적인 반응이 필요한 AI 애플리케이션 분야에 새로운 가능성을 제시한다.

배경

LLM 추론 방식(Auto-regressive)에 대한 기본 이해, 확산 모델(Diffusion Model)의 기본 개념, API 기반 모델 통합 경험

대상 독자

실시간 AI 서비스를 구축하는 개발자 및 AI 인프라 비용 최적화가 필요한 엔지니어

의미 / 영향

머큐리 2의 등장은 LLM의 성능 경쟁이 단순한 파라미터 크기를 넘어 생성 아키텍처의 효율성으로 이동하고 있음을 시사한다. 특히 확산 모델의 텍스트 적용 성공은 향후 추론 모델의 표준 아키텍처를 바꿀 수 있는 중대한 변화이다.

섹션별 상세

기존의 자기회귀 방식이 타자기처럼 단어를 순차적으로 나열한다면 머큐리 2는 에디터처럼 전체 답변의 초안을 먼저 잡은 뒤 병렬적으로 정제하는 확산 방식을 채택했다. 이러한 병렬 처리 덕분에 문맥의 오류를 생성 초기 단계에서 동시에 수정할 수 있으며 복잡한 사고 체계(Chain of Thought)를 거쳐야 하는 질문에서도 병목 현상 없이 빠른 응답이 가능하다.

벤치마크 결과 머큐리 2는 초당 약 1,000토큰의 처리량을 기록하며 이는 클로드 4.5 하이쿠(89 tps)나 GPT-5 미니(71 tps)보다 10배 이상 빠른 수치이다. 비용 측면에서도 입력 토큰당 0.25달러, 출력 토큰당 0.75달러(100만 토큰 기준) 수준으로 책정되어 경쟁 모델 대비 최대 6.5배 저렴한 경제성을 확보했다.

속도 향상을 위해 품질을 타협하지 않았으며 AIME 2025 수학 벤치마크에서 91.1점을 기록하는 등 고난도 과학 및 지시 이행 평가에서 우수한 성적을 거두었다. 또한 128K의 넓은 컨텍스트 윈도우를 지원하고 도구 사용(Tool Use) 및 JSON 출력 기능을 갖추어 복잡한 에이전트 워크플로우 구축에 최적화되어 있다.

자동차 세차장 거리 문제와 같은 추론 테스트에서 'reasoning_effort' 설정에 따라 단순 답변부터 상황별 맥락을 고려한 정교한 추천까지 유연하게 대응하는 성능을 보였다. 특히 5,000단어 이상의 긴 기사를 요약하는 테스트에서 챗GPT가 35초 이상 소요된 반면 머큐리 2는 3초 이내에 결과물을 도출하며 실전 성능을 입증했다.