Diffusion 헤드
AR 백본의 고정된 표현 공간 위에 학습 가능한 diffusion 모듈을 추가해 병렬 토큰 생성을 수행하는 구성요소. 학습 시에는 AR의 예측분포를 확률적 분포로 소프트 디스틸레이션한다.