David OndrejLLM12분2026년 3월 8일 07:17 KST1일 전

머큐리 2: 트랜스포머를 넘어설 차세대 디퓨전 LLM의 등장

인셉션 랩스가 공개한 세계 최초의 추론형 디퓨전 LLM인 머큐리 2의 아키텍처 혁신과 벤치마크 성능, 그리고 실무 적용 사례를 다룹니다.

핵심 요약

머큐리 2는 디퓨전 방식을 통해 전체 문장을 동시에 생성하고 정제함으로써 기존 모델보다 5배 이상 빠르고 환각이 적은 추론 성능을 제공한다. 이는 트랜스포머 이후 가장 큰 아키텍처 변화가 될 가능성이 크다.

배경

기존 트랜스포머 기반 LLM은 토큰을 하나씩 순차적으로 생성하는 자기회귀(Autoregressive) 방식의 한계로 인해 환각과 오류 누적 문제를 겪어왔다.

대상 독자

AI 개발자, 아키텍처 연구자, 실시간 AI 에이전트 구축에 관심 있는 엔지니어

의미 / 영향

머큐리 2의 등장은 트랜스포머가 지배하던 LLM 시장에 아키텍처 다변화를 예고한다. 초저지연 추론과 자가 수정 능력을 갖춘 디퓨전 모델이 확산됨에 따라 실시간 상호작용이 필수적인 AI 에이전트와 코딩 보조 도구의 성능이 비약적으로 향상될 것이다. 이는 기업들이 더 낮은 비용으로 더 높은 지능의 서비스를 구축할 수 있는 환경을 제공한다.

챕터별 상세

00:00

세계 최초의 추론형 디퓨전 LLM 머큐리 2 소개

인셉션 랩스(Inception Labs)가 개발한 머큐리 2는 세계 최초의 dLLM(Diffusion Large Language Model)이다. 기존 모델들이 단어를 하나씩 생성하는 것과 달리 전체 텍스트를 동시에 생성한 후 정제하는 방식을 취한다. 이 모델은 동일한 성능의 기존 모델 대비 5배에서 10배 가량 빠른 속도를 기록했다.

•세계 최초의 추론 가능한 디퓨전 기반 언어 모델이다
•기존 트랜스포머 모델 대비 압도적인 생성 속도를 보유했다
•인셉션 랩스에서 개발하여 공개했다

디퓨전 모델은 주로 미드저니(Midjourney)와 같은 이미지 생성 AI에서 사용되던 기술로, 노이즈에서 시작해 점진적으로 데이터를 정제하는 방식이다.

02:34

자기회귀 모델의 치명적 약점과 오류 복합화

GPT나 클로드 같은 기존 모델은 왼쪽에서 오른쪽으로 한 번에 하나의 토큰만 생성하는 자기회귀 방식을 사용한다. 이 방식은 초기 단계에서 잘못된 토큰이 생성되면 이후 모든 생성 과정에 오류가 누적되는 오류 복합화(Error Compounding) 문제를 야기한다. 얀 르쿤(Yann LeCun) 교수는 이러한 구조적 한계 때문에 자기회귀 모델이 진정한 계획과 추론을 할 수 없다고 지적해왔다.

•자기회귀 방식은 한 번 쓴 단어를 수정할 수 없는 구조적 한계가 있다
•초기 오류가 뒤로 갈수록 증폭되어 환각 현상을 심화시킨다
•순차적 생성 방식은 병렬 처리가 어려워 속도 향상에 제약이 있다

오류 복합화는 초기 사소한 실수가 문장이 길어질수록 걷잡을 수 없는 환각(Hallucination)으로 이어지는 현상을 말한다.

03:52

디퓨전 아키텍처가 텍스트 생성을 혁신하는 방법

머큐리 2는 노이즈 섞인 전체 답변에서 시작하여 여러 번의 패스를 거쳐 답변을 정제한다. 이 과정은 편집자가 초안을 다듬는 것과 유사하며 생성 도중 스스로 오류를 수정할 수 있는 능력을 부여한다. 병렬 생성 방식을 통해 초당 1,000개 이상의 토큰을 출력하며 이는 기존 모델의 한계를 완전히 극복한 수치였다.

•전체 답변을 동시에 생성하고 반복적으로 정제한다
•생성 과정에서 실시간 자가 수정이 가능하다
•초당 1,000 토큰 이상의 압도적인 추론 속도를 달성했다

병렬 정제 방식은 모든 단어를 동시에 고려하기 때문에 문맥적 일관성이 훨씬 높다.

05:18

벤치마크 성능 및 에이전트 활용 가능성

머큐리 2는 GPQA, MATH, SciCode 등 주요 벤치마크에서 클로드 4.5 하이쿠나 제미나이 3 플래시와 같은 최신 고속 모델들을 압도했다. 특히 지연 시간(Latency) 측면에서 1.7초를 기록하며 경쟁 모델 대비 수 배 빠른 성능을 입증했다. 또한 도구 사용(Tool Use), 구조화된 출력, 128K 컨텍스트 윈도우를 지원하여 실제 에이전트 환경에 즉시 투입 가능하다.

•주요 추론 및 코딩 벤치마크에서 최상위권 성적을 기록했다
•엔드투엔드 지연 시간이 경쟁 모델 중 가장 짧다
•에이전트 구축에 필요한 API 기능을 완벽히 지원한다

GPQA는 박사급 수준의 과학 질문으로 구성된 고난도 추론 벤치마크이다.

08:18

실전 데모: 복잡한 코딩 및 시뮬레이션 구현

머큐리 2를 활용해 중력이 작용하는 500개의 별이 상호작용하는 은하계 시뮬레이터를 단 3초 만에 구현했다. 테트리스 클론 제작 시에도 조각이 위로 떨어지는 특이한 요구사항을 완벽히 반영하며 실시간으로 캔버스 크기를 조정하는 등 뛰어난 코딩 능력을 보였다. 오픈라우터(OpenRouter)를 통해 기존 OpenAI API와 호환되는 방식으로 즉시 사용 가능하다.

•복잡한 물리 시뮬레이션 코드를 수 초 내에 생성했다
•사용자의 피드백을 즉각적으로 반영하여 코드를 수정했다
•기존 OpenAI 라이브러리와 코드 한 줄 변경으로 호환된다

오픈라우터는 다양한 AI 모델을 하나의 API 키로 사용할 수 있게 해주는 통합 플랫폼이다.

실무 Takeaway

디퓨전 아키텍처는 텍스트 생성에서도 트랜스포머의 순차적 생성 한계를 극복할 수 있는 강력한 대안이다
초당 1,000 토큰 이상의 속도는 실시간 음성 인터페이스와 자율 에이전트 구현의 핵심 동력이 된다
전체 문맥을 동시에 정제하는 방식은 긴 문장 생성 시 발생하는 환각 현상을 획기적으로 줄여준다
OpenAI API 호환성을 통해 기존 시스템의 모델을 비용 효율적이고 빠른 머큐리 2로 쉽게 교체할 수 있다

언급된 리소스

DemoInception Labs Mercury 2 Chat

API DocsOpenRouter Mercury 2

GitHubAgentZero GitHub

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

머큐리 2: 트랜스포머를 넘어설 차세대 디퓨전 LLM의 등장 | AI Trends