초안 모델
추측 디코딩에서 타겟 모델보다 훨씬 작고 빠른 속도로 토큰 후보를 제안하는 모델이다. 이 모델의 예측 정확도가 높을수록 타겟 모델이 수용하는 토큰 수가 많아져 전체 추론 속도가 향상된다.