어텐션 드리프트
모델이 토큰을 생성할수록 초기 입력 프롬프트보다 최근에 생성된 토큰에 과도하게 집중하게 되는 현상이다. 이로 인해 문맥 유지 능력이 떨어지고 추론의 정확도가 낮아지는 문제가 발생하며, 특히 Speculative Decoding의 Drafter 모델에서 두드러진다.