핵심 요약
대형 언어 모델의 추론 속도를 높이기 위한 투기적 디코딩 기법 중 하나인 EAGLE은 드래프트 토큰을 순차적으로 생성해야 하는 구조적 한계가 있었다. P-EAGLE(Parallel-EAGLE)은 학습 가능한 마스크 토큰과 공유 은닉 상태를 활용하여 K개의 드래프트 토큰을 단일 포워드 패스에서 동시에 생성함으로써 이 병목을 제거했다. NVIDIA B200 GPU 환경에서 테스트한 결과, 기존 EAGLE-3 대비 최대 1.69배의 처리량 향상을 달성했으며 수락률 또한 개선되었다. 이 기술은 vLLM v0.16.0 이상 버전에 통합되어 간단한 설정 변경만으로 즉시 적용 가능하다.
배경
vLLM v0.16.0 이상 설치, NVIDIA GPU (B200 등 Blackwell 아키텍처 권장), 투기적 디코딩 및 EAGLE 알고리즘에 대한 기본 이해
대상 독자
LLM 서비스의 추론 성능 최적화와 비용 절감을 목표로 하는 MLOps 엔지니어 및 백엔드 개발자
의미 / 영향
P-EAGLE의 등장은 투기적 디코딩의 효율성을 한 단계 높여 고성능 GPU 자원을 더 효율적으로 사용하게 하며, 실시간 응답이 중요한 코드 에이전트나 대화형 AI 서비스의 사용자 경험을 크게 개선할 것이다.
섹션별 상세
vllm serve openai/gpt-oss-20b \
--speculative-config '{"method": "eagle3", "model": "amazon/gpt-oss-20b-p-eagle", "num_speculative_tokens": 5, "parallel_drafting": true}'vLLM에서 P-EAGLE을 사용하여 병렬 투기적 디코딩을 활성화하는 실행 명령 예시


# Copy target hidden states to their new positions
self.hidden_states[out_hidden_state_mapping] = target_hidden_states
# Fill masked positions with the learned Parallel Drafting hidden state
mask = self.is_masked_token_mask[:total_num_output_tokens]
torch.where(
mask.unsqueeze(1),
self.parallel_drafting_hidden_state_tensor,
self.hidden_states[:total_num_output_tokens],
out=self.hidden_states[:total_num_output_tokens],
)타겟 모델의 은닉 상태를 복사하고 마스크된 위치를 학습된 파라미터로 채우는 내부 로직

실무 Takeaway
- vLLM 환경에서 추론 성능을 극대화하려면 speculative-config에 parallel_drafting: true 옵션을 추가하여 P-EAGLE을 활성화해야 한다.
- P-EAGLE은 단일 패스로 다수 토큰을 생성하므로 기존보다 더 깊은 추론 깊이(K=7 이상)를 설정해도 성능 저하 없이 높은 효율을 얻을 수 있다.
- 코드 생성과 같은 긴 시퀀스 작업에서 P-EAGLE은 기존 방식보다 약 30% 더 높은 토큰 수락률을 제공하여 실질적인 응답 지연 시간을 단축시킨다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.