핵심 요약
기존의 Diffusion Language Model(DLM)은 병렬 생성이라는 장점에도 불구하고 Autoregressive(AR) 모델보다 품질이 낮고 추론 효율이 떨어지는 한계가 있었다. 이 논문은 AR 모델의 성공 비결인 '내성적 일관성'을 DLM에 도입하여, 동일 규모의 AR 모델과 대등한 품질을 유지하면서도 최대 4.1배 높은 처리량을 달성하는 새로운 패러다임을 제시한다.
왜 중요한가
기존의 Diffusion Language Model(DLM)은 병렬 생성이라는 장점에도 불구하고 Autoregressive(AR) 모델보다 품질이 낮고 추론 효율이 떨어지는 한계가 있었다. 이 논문은 AR 모델의 성공 비결인 '내성적 일관성'을 DLM에 도입하여, 동일 규모의 AR 모델과 대등한 품질을 유지하면서도 최대 4.1배 높은 처리량을 달성하는 새로운 패러다임을 제시한다.
관련 Figure

표준 DLM은 생성 분포(q)와 검증 분포(p)가 일치하지 않지만, I-DLM은 이를 일치시켜 품질을 높인다. 결과적으로 I-DLM-8B는 Qwen3-8B AR 모델의 성능을 유지하면서도 LLaDA-2.1-mini보다 3.1배 빠른 속도를 보여준다.
내성적 일관성의 개념도와 MATH-500 벤치마크에서의 품질 대비 처리량 비교 그래프이다.
핵심 기여
내성적 일관성 개념 정의 및 분석
모델이 자신이 생성한 토큰을 스스로 수용하는 정도를 측정하는 '내성적 수용률(Introspective Acceptance Rate)'을 정의했다. AR 모델은 구조적으로 이 수치가 높은 반면, 기존 DLM은 낮다는 점을 발견하여 품질 격차의 근본 원인을 규명했다.
I-DLM 학습 프레임워크 개발
Causal Masking, Logit Shifting, All-masked Objective를 결합하여 사전 학습된 AR 모델을 DLM으로 효율적으로 변환하는 학습 기법을 제안했다. 단 4.5B 토큰의 추가 학습만으로 AR 수준의 품질을 회복했다.
내성적 스트라이드 디코딩(ISD) 알고리즘
단일 Forward Pass 내에서 새로운 토큰을 생성함과 동시에 이전 토큰을 검증하는 알고리즘을 설계했다. 이를 통해 별도의 검증 모델 없이도 AR 모델의 분포와 일치하는 출력을 보장하며 병렬성을 극대화했다.
AR 호환 추론 엔진 및 스케줄러 최적화
SGLang 기반의 추론 스택을 구축하고, Stationary-batch Scheduler와 커널 퓨전을 적용했다. 이를 통해 기존 DLM 대비 3배, AR 모델 대비 대규모 동시 접속 환경에서 월등한 처리량을 확보했다.
핵심 아이디어 이해하기
기존의 Transformer 기반 Autoregressive(AR) 모델은 Causal Masking을 통해 이전 토큰들만 참조하여 다음 토큰을 예측한다. 이 과정에서 모델은 자신이 방금 생성한 토큰을 다음 단계의 입력으로 사용하며 스스로의 논리를 검증하는 '내성적 일관성'을 자연스럽게 학습한다. 반면, 기존의 Diffusion Language Model(DLM)은 전체 문맥을 한꺼번에 고려하는 양방향 Attention을 주로 사용하며, 이로 인해 모델이 생성한 결과물과 모델 내부의 예측 분포가 어긋나는 현상이 발생하여 품질 저하로 이어진다.
I-DLM은 AR 모델의 Causal Masking 구조를 그대로 유지하면서도 확산 모델의 병렬 생성 능력을 결합한다. 핵심은 Logit Shifting 기법으로, i번째 위치의 Hidden State가 i+1번째 토큰을 예측하도록 훈련하여 AR 모델의 예측 패턴을 보존한다. 여기에 모든 토큰을 [MASK]로 치환하여 학습하는 방식을 더해, 모델이 문장의 어느 위치에서든 병렬적으로 토큰을 생성할 수 있는 능력을 갖추게 한다.
결과적으로 I-DLM은 추론 시점에 '내성적 스트라이드 디코딩(ISD)'을 수행한다. 이는 모델이 [MASK] 위치에서 여러 개의 후보 토큰을 제안(Stride)함과 동시에, 이미 생성된 토큰들이 모델 자신의 기준(Causal Anchor)에 부합하는지 한 번의 연산으로 검증하는 방식이다. 쉬운 토큰은 한 번에 많이 생성하고 어려운 토큰은 AR처럼 신중하게 검증하며 넘어가기 때문에, 품질 손실 없이 실질적인 속도 향상을 이끌어낸다.
관련 Figure

AR 모델과 I-DLM은 1.0에 가까운 높은 수용률을 보이는 반면, SDAR이나 LLaDA 2.0 등 기존 DLM은 수치가 현저히 낮다. 이는 I-DLM이 자신이 생성한 토큰을 스스로 신뢰할 수 있는 능력이 훨씬 뛰어남을 입증한다.
다양한 모델들의 내성적 수용률(Introspective Acceptance Rate) 비교 차트이다.
방법론
I-DLM의 학습은 사전 학습된 AR 모델을 기반으로 세 가지 핵심 요소를 결합한다. 첫째, Strict Causal Masking을 적용하여 모든 쿼리 위치 j가 i ≤ j인 키 위치만 참조하게 한다. 둘째, Logit Shifting을 통해 Hidden State i가 토큰 i+1을 예측하도록 설정하여 AR 모델의 예측 분포 p와 DLM의 생성 분포 q를 일치시킨다. 셋째, All-masked Training을 통해 입력 시퀀스 전체를 [MASK]로 채운 xt와 정답 시퀀스 x0를 연결하여 학습 효율을 높인다.
학습 손실 함수는 Masked 영역의 L_mask와 Clean 영역의 L_clean으로 구분되며, 두 영역의 손실 크기를 동적으로 조절하는 Auto-balanced Loss를 사용한다. s_hat = L_mask / L_clean [Masked 영역 손실 → 나누기 → Clean 영역 손실 → 손실 비중 결정] 연산을 통해 두 경로가 동일한 그래디언트 강도를 갖도록 조정한다. 이는 모델이 생성 능력과 검증 능력을 균형 있게 발달시켜 내성적 수용률을 극대화하는 결과를 낳는다.
추론 알고리즘인 ISD는 단일 Forward Pass에서 생성과 검증을 동시에 수행한다. N-1개의 [MASK]를 붙여 N개의 토큰 후보를 생성한 후, 다음 단계에서 이 후보들을 실제 토큰으로 채워 입력한다. 이때 Causal Masking 덕분에 모델은 이전 후보들이 자신의 확률 분포 p에 맞는지 확인(Introspection)하면서 동시에 새로운 [MASK] 위치에서 다음 후보들을 생성한다. 수용 여부는 p/q Acceptance Criterion에 따라 결정되며, 거부된 토큰 이후는 폐기하고 다시 생성하는 적응형 스트라이드 방식을 취한다.
관련 Figure

I-DLM은 AR의 엄격한 Causal 구조를 유지하면서도 가변적인 Stride를 통해 병렬 생성을 수행한다. Block Diffusion과 달리 별도의 KV Commit 단계가 필요 없어 추론 효율이 더 높다.
AR, Block Diffusion, I-DLM의 디코딩 패러다임을 시각적으로 비교한 다이어그램이다.
주요 결과
I-DLM-8B 모델은 15개의 벤치마크에서 기존의 모든 DLM을 압도적인 차이로 능가했다. 특히 수학적 추론(AIME-24)에서 69.6점을 기록하여 LLaDA-2.1-mini(16B)의 43.3점보다 26점 이상 높았으며, 코딩(LiveCodeBench)에서도 45.7점으로 기존 모델들을 크게 앞섰다. 이는 I-DLM이 동일한 파라미터 규모의 AR 모델인 Qwen3-8B와 거의 대등한 품질(ARC-C 95.8 vs 95.8, IFEval 84.7 vs 84.7)을 보여줌을 의미한다.
효율성 측면에서 I-DLM은 대규모 동시 서비스(Concurrency=64) 환경에서 LLaDA-2.1-mini 대비 2.23.8배, SDAR 대비 3.74.5배 높은 처리량(Throughput)을 달성했다. 또한 AR 모델의 가속 기법인 Speculative Decoding(EAGLE-3)과 비교했을 때도 MATH-500 벤치마크에서 341 tok/s 대 238 tok/s로 더 높은 성능을 보였다. 이는 I-DLM의 ISD 알고리즘이 연산 오버헤드를 최소화하면서도 병렬 이득을 실질적인 속도로 변환했음을 증명한다.
기술 상세
I-DLM 아키텍처는 표준 Transformer 구조를 유지하며, 학습 시에만 특수한 마스킹 전략을 사용한다. 핵심 차별점은 '내성적 일관성'을 강제하기 위해 AR 모델의 Causal 구조를 DLM의 반복적 정제 과정에 이식했다는 점이다. 기존 DLM들이 양방향 Attention을 사용하여 AR 모델의 사전 학습 지식을 손상시키는 것과 달리, I-DLM은 Causal Attention을 유지함으로써 KV Cache 재사용과 같은 AR 최적화 기법을 그대로 계승한다.
구현 측면에서는 Gated LoRA를 활용한 Residual ISD를 도입했다. [MASK] 위치(생성)에는 LoRA 가중치를 적용하여 높은 품질의 후보를 제안하고, Clean 위치(검증)에는 Base 모델의 가중치만 사용하여 AR 모델의 원래 분포를 정확히 따르도록 설계했다. 시스템적으로는 CUDA Graph 캡처를 통해 커널 런칭 오버헤드를 제거하고, Paged Attention 커널을 단일화하여 다중 쿼리 처리 효율을 극대화했다.
한계점
본 논문은 I-DLM이 AR 모델의 품질을 따라잡았으나, 매우 복잡한 추론이 필요한 일부 태스크에서는 여전히 AR 모델의 순차적 사고 방식이 미세하게 우세할 수 있음을 시사한다. 또한, 학습 과정에서 Auto-balanced Loss를 사용함에도 불구하고 Masked 영역과 Clean 영역 사이의 학습 난이도 차이로 인한 최적화의 민감도가 존재할 수 있다.
실무 활용
I-DLM은 기존 AR 모델의 추론 인프라(SGLang 등)에 즉시 통합 가능한 구조를 가지고 있어 실무 적용성이 매우 높다. 특히 높은 품질과 빠른 생성 속도가 동시에 요구되는 대규모 언어 모델 서비스 환경에 최적화되어 있다.
- 실시간 코드 생성 및 자동 완성 서비스의 처리량 증대
- 복잡한 수학적 추론이나 논리적 사고가 필요한 챗봇의 응답 속도 개선
- 대규모 배치 처리가 필요한 텍스트 요약 및 데이터 라벨링 작업의 비용 절감
- 기존 AR 모델 서빙 인프라를 그대로 활용한 저지연 추론 시스템 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.