투기적 디코딩
상대적으로 작고 빠른 드래프트 모델이 먼저 여러 토큰을 생성하고, 큰 타겟 모델이 이를 한 번에 검증하는 기법이다. 검증 성공 시 여러 토큰을 동시에 생성한 효과를 내어 추론 속도를 획기적으로 높인다.