본문으로 건너뛰기

draft-head

드래프트 헤드

중급

드래프트 헤드는 목표 모델의 중간 은닉 상태를 재사용하는 경량 예측 헤드로 한 번의 전방 패스로 여러 초안 토큰의 로짓을 생성한다. 별도 drafter 모델을 배포하지 않으면서도 낮은 per-token 비용을 달성하고 target-model의 신호를 반영하기 위해 hidden state를 KV에 주입하거나 feature fusion을 수행한다. JetSpec은 이러한 드래프트 헤드에 branch-wise causal conditioning을 더해 트리 드래프팅과 정합성을 확보한다.