이글
모델의 은닉 상태를 기반으로 다음 토큰을 예측하는 약 100M 규모의 보조 모델을 사용하는 가속 기법이다. 단순한 토큰 예측을 넘어 문맥 정보를 활용하므로 토큰 수락률이 80% 이상으로 높다. 기존 추측 디코딩보다 더 높은 속도 향상과 효율성을 제공한다.