TiDAR: 디퓨전으로 생각하고 자기회귀로 말하는 새로운 AI 아키텍처 | AI Trends

Yannic KilcherAI/ML

TiDAR: 디퓨전으로 생각하고 자기회귀로 말하는 새로운 AI 아키텍처

TiDAR는 디퓨전 기반의 병렬 드래프팅과 자기회귀 방식의 검증을 단일 포워드 패스에 통합하여 품질 저하 없이 추론 속도를 최대 5.9배 향상시킨 하이브리드 아키텍처이다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

TiDAR는 GPU의 유휴 연산 자원을 활용해 디퓨전 방식으로 미래 토큰을 미리 생성하고 AR 방식으로 이를 검증한다. 이를 통해 AR 모델 수준의 품질을 유지하면서도 추론 속도를 획기적으로 개선했다.

배경

기존 LLM은 높은 품질의 자기회귀(AR) 방식과 빠른 속도의 디퓨전 방식 사이에서 선택해야 하는 딜레마가 있었다.

대상 독자

LLM 아키텍처 연구자, 추론 최적화 엔지니어, AI 모델 개발자

의미 / 영향

TiDAR는 LLM 추론의 고질적인 문제인 속도와 품질의 트레이드오프를 해결할 수 있는 실질적인 아키텍처를 제시했다. 특히 NVIDIA 하드웨어의 연산 밀도를 극한으로 활용하여 상용 서비스의 처리량을 획기적으로 높일 수 있을 것으로 기대된다.

챕터별 상세

02:00

자기회귀 모델과 디퓨전 모델의 근본적 차이

자기회귀(AR) 모델은 이전 토큰을 기반으로 다음 토큰을 하나씩 생성하는 인과적 구조를 가진다. 이 방식은 품질이 매우 높지만 메모리 대역폭에 제한되어 GPU 연산 자원을 완전히 활용하지 못한다. 반면 디퓨전 모델은 여러 토큰을 병렬로 생성할 수 있어 속도가 빠르지만, 토큰 간의 상호작용을 충분히 반영하지 못해 품질이 떨어지는 한계가 있었다.

AR 모델은 추론 시 메모리 바운드(Memory-bound) 특성을 가지며, 이는 연산 능력보다 데이터 전송 속도가 병목이 됨을 의미한다.

13:00

투기적 디코딩의 개념과 한계

투기적 디코딩(Speculative Decoding)은 작은 모델이 여러 토큰을 미리 추측하고 큰 모델이 이를 한 번에 검증하는 방식이다. 하지만 별도의 드래프트 모델을 운영해야 하는 오버헤드가 발생하며, 드래프트 모델의 예측 정확도가 낮을 경우 오히려 성능이 저하될 수 있다. TiDAR는 이러한 외부 모델 의존성을 없애고 단일 모델 내에서 이 과정을 통합했다.

투기적 디코딩의 효율성은 드래프트 모델의 속도와 타겟 모델과의 일치율에 달려 있다.

20:30

TiDAR의 핵심 아키텍처: Think in Diffusion

TiDAR는 GPU의 남는 연산 밀도를 활용하여 디퓨전 방식으로 다음 토큰들을 미리 '생각(Draft)'한다. AR 모델이 토큰 하나를 생성할 때 발생하는 유휴 연산 슬롯을 활용하기 때문에 추가적인 시간 소모가 거의 없다. 이 과정에서 생성된 드래프트 토큰들은 다음 단계의 검증 후보가 된다.

GPU 연산 밀도(Compute Density)가 높을수록 메모리 전송 시간 동안 더 많은 연산을 수행할 수 있다.

30:00

구조화된 어텐션 마스크를 통한 병렬 처리

TiDAR는 특수하게 설계된 구조적 어텐션 마스크를 사용하여 단일 포워드 패스 내에서 검증과 드래프팅을 동시에 처리한다. 마스크의 특정 구역은 인과적 어텐션(Causal Attention)을 통해 이전 드래프트를 검증하고, 다른 구역은 양방향 어텐션(Bi-directional Attention)을 통해 새로운 드래프트를 생성한다. 이 설계를 통해 KV 캐시를 완벽하게 재사용하며 오버헤드를 최소화했다.

어텐션 마스크의 구조를 변경함으로써 모델이 참고하는 정보의 범위를 동적으로 제어할 수 있다.

40:00

학습 전략 및 실험 결과 분석

TiDAR는 자기회귀 손실과 디퓨전 손실을 동시에 학습하는 통합 손실 함수를 사용한다. 실험 결과 1.5B 및 8B 규모의 모델에서 기존 AR 모델 대비 4.71배에서 5.91배의 속도 향상을 기록했다. 특히 기존 디퓨전 모델들이 해결하지 못했던 품질 격차를 AR 모델 수준으로 좁히는 데 성공했다.

거부 샘플링(Rejection Sampling) 기법을 통해 디퓨전 드래프트 중 AR 모델이 동의하는 토큰만 최종 선택한다.

python

L_TiDAR = (1 / (1 + alpha)) * (L_AR + alpha * L_Diff)
# alpha is the loss balancing factor, typically set to 1
# L_AR: Autoregressive loss
# L_Diff: Diffusion loss (masked language modeling loss)

TiDAR의 학습을 위한 자기회귀 손실과 디퓨전 손실이 결합된 통합 손실 함수 구조

실무 Takeaway

AR 모델의 추론은 메모리 대역폭에 제한되므로 GPU 연산 자원이 남으며, TiDAR는 이 유휴 자원을 디퓨전 드래프팅에 활용하여 효율을 높였다.
단일 모델 내에서 AR과 디퓨전 학습을 통합함으로써 별도의 드래프트 모델 없이도 고성능 투기적 디코딩이 가능하다.
구조화된 어텐션 마스크를 통해 단일 포워드 패스에서 검증과 드래프팅을 병렬화하여 추론 오버헤드를 획기적으로 줄였다.

언급된 리소스

논문TiDAR: Think in Diffusion, Talk in Autoregression

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2025. 12. 27.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.