메두사
메인 모델 위에 여러 개의 디코딩 헤드를 추가하여 한 번에 여러 미래 토큰을 동시에 예측하는 아키텍처이다. 별도의 드래프트 모델 없이 메인 모델의 은닉 상태를 공유하여 추론 효율을 극대화한다.