핵심 요약
Speculative Decoding(SD)은 LLM 추론 속도를 높이는 핵심 기술이지만, 기존 벤치마크는 데이터 다양성이 부족하고 실제 서비스 환경을 반영하지 못하는 한계가 있었다. SPEED-Bench는 다양한 도메인과 실제 운영 환경의 처리량(Throughput)을 정밀하게 측정할 수 있는 표준을 제공하여 SD 알고리즘의 실질적인 성능 비교를 가능하게 한다.
왜 중요한가
Speculative Decoding(SD)은 LLM 추론 속도를 높이는 핵심 기술이지만, 기존 벤치마크는 데이터 다양성이 부족하고 실제 서비스 환경을 반영하지 못하는 한계가 있었다. SPEED-Bench는 다양한 도메인과 실제 운영 환경의 처리량(Throughput)을 정밀하게 측정할 수 있는 표준을 제공하여 SD 알고리즘의 실질적인 성능 비교를 가능하게 한다.
관련 Figure

무작위 토큰을 사용할 경우 실제 데이터(SPEED-Bench)보다 처리량이 훨씬 높게 측정되는 '과대평가' 현상을 보여준다. 이는 벤치마크 데이터의 실제적 문맥이 SD 성능 측정에 얼마나 중요한지를 증명한다.
무작위 토큰과 SPEED-Bench 데이터를 사용했을 때의 처리량(TPS) 비교 곡선
핵심 기여
다양한 도메인을 포괄하는 Qualitative Split 구축
18개의 공개 데이터셋에서 추출한 11개 카테고리의 데이터를 활용하여 의미론적 다양성을 극대화한 880개의 샘플을 구성했다. 이를 통해 특정 도메인에 편향되지 않은 Speculative Decoding의 정확도 측정이 가능하다.
실제 서비스 시나리오를 반영한 Throughput Split 도입
1k에서 32k에 이르는 고정된 입력 시퀀스 길이(ISL) 버킷과 다양한 배치 사이즈를 지원하여, 지연 시간 중심의 저부하 상황부터 처리량 중심의 고부하 시나리오까지 성능 분석을 지원한다.
운영 환경 엔진 통합 측정 프레임워크 개발
vLLM, TensorRT-LLM, SGLang 등 실제 프로덕션에서 사용되는 추론 엔진과 직접 통합되어, 추론 엔진의 최적화 기법이 SD 성능에 미치는 영향을 격리하여 분석할 수 있는 환경을 제공한다.
핵심 아이디어 이해하기
LLM의 추론 과정은 한 번에 하나의 토큰을 생성하는 Autoregressive Decoding 방식을 따르는데, 이는 GPU의 연산 능력보다 메모리 대역폭에 의해 속도가 제한되는 Memory-bound 문제를 겪는다. Speculative Decoding은 상대적으로 가벼운 Draft Model이 미래의 토큰 여러 개를 미리 예측(Speculate)하고, 이를 거대한 Target Model이 한 번에 검증(Verify)함으로써 한 번의 연산으로 여러 토큰을 생성해 속도를 높이는 원리이다.
기존에는 이러한 SD의 성능을 측정할 때 무작위 토큰(Random Tokens)을 사용하거나 매우 짧은 문장 위주로 평가하는 경향이 있었다. 하지만 SD의 핵심인 '예측 성공률(Acceptance Rate)'은 입력 데이터의 문맥적 의미와 복잡도에 따라 크게 달라진다. 예를 들어, 정형화된 코드 작성 시에는 예측이 쉽지만 창의적인 글쓰기에서는 예측이 어려워 성능 이득이 줄어든다.
SPEED-Bench는 이러한 데이터 의존성을 해결하기 위해 의미론적 유사도가 낮은 다양한 데이터를 선별하고, 실제 서비스 환경처럼 긴 문맥과 높은 동시 요청 상황을 시뮬레이션한다. 이를 통해 개발자는 자신의 서비스 도메인에서 SD가 실제로 어느 정도의 속도 향상을 가져올지 정확하게 예측할 수 있게 된다.
방법론
SPEED-Bench는 두 가지 주요 데이터 분할과 통합 측정 프레임워크로 구성된다. 첫 번째인 Qualitative Split은 18개 소스에서 수집된 데이터를 11개 카테고리로 분류한 뒤, 임베딩 기반의 Greedy Selection 알고리즘을 사용하여 카테고리 내 의미적 중복을 최소화하도록 설계됐다.
두 번째인 Throughput Split은 입력 시퀀스 길이(ISL)를 1k, 2k, 8k, 16k, 32k의 5개 버킷으로 고정하고, 각 버킷당 1,536개의 샘플을 배치했다. 이는 배치 사이즈(Batch Size) 변화에 따른 처리량-지연 시간 Pareto 곡선을 안정적으로 도출하기 위함이다. 데이터는 도메인 엔트로피에 따라 Low(코드), Mixed(STEM), High(창의적 글쓰기)로 구분된다.
측정 프레임워크는 Python의 asyncio 기반 비동기 이벤트 루프를 사용하여 다중 요청 상황을 모방한다. 외부에서 토큰화(Tokenization)를 수행한 뒤 엔진에 전달함으로써, 서로 다른 추론 엔진(vLLM, TensorRT-LLM 등) 간의 전처리 로직 차이를 배제하고 순수하게 SD 알고리즘과 엔진의 최적화 성능만을 비교할 수 있도록 구현됐다.
주요 결과
실험 결과, 무작위 토큰을 사용한 기존 방식은 실제 데이터 대비 처리량을 평균 23% 과대평가하는 것으로 나타났다. 이는 무작위 토큰이 모델로 하여금 단순한 응답을 유도하여 예측 성공률(AR)을 비정상적으로 높이기 때문이다. 또한, Mixture-of-Experts(MoE) 모델의 경우 무작위 토큰이 특정 전문가(Expert)에게만 부하를 집중시키는 Expert Imbalance 현상을 유발하여 정확한 벤치마킹을 방해함을 확인했다.
추론 엔진 비교에서는 TensorRT-LLM이 통합된 CUDA Graph를 활용하여 vLLM보다 높은 피크 처리량을 기록했다. vLLM은 멀티 엔진 구조로 인해 호스트 통신 오버헤드가 발생하지만, 동적 드래프팅 전략에서는 더 높은 유연성을 보였다. 또한, EAGLE3와 같은 드래프터에서 흔히 사용되는 Vocabulary Pruning(어휘 사전 가지치기) 기법이 다국어(Multilingual) 도메인에서는 성능을 심각하게 저하시킨다는 사실을 정량적으로 입증했다.
관련 Figure

Draft Length가 길어질수록 AL이 증가하지만, 모델마다 증가 폭이 다르다. 특히 Qwen3-Next의 Native MTP 방식이 외부 드래프터를 사용하는 방식보다 더 높은 AL을 유지하며 견고한 성능을 보임을 나타낸다.
다양한 모델 및 드래프팅 기법에 따른 Draft Length와 평균 Acceptance Length(AL)의 관계 그래프
기술 상세
SPEED-Bench는 Speculative Decoding의 핵심 지표로 Conditional Acceptance Rate(AR)와 Acceptance Length(AL)를 사용한다. AL은 한 번의 검증 단계에서 생성되는 평균 토큰 수로, AL = 1 + Σ(Π AR_j) 공식을 통해 계산된다. 여기서 1은 항상 생성되는 검증 토큰을 의미한다.
아키텍처 측면에서 Native Multi-Token Prediction(MTP) 헤드를 가진 Qwen3-Next와 같은 모델이 사후 학습된 EAGLE3 드래프터보다 더 높은 정확도 유지력을 보임을 확인했다. 또한, 입력 시퀀스 길이(ISL)가 드래프터의 학습 길이를 초과할 경우 정확도가 급격히 하락하며, 이를 해결하기 위해 YaRN Scaling과 같은 기법을 추론 시점에 적용하는 것이 필수적임을 기술적으로 분석했다.
관련 Figure

어휘 사전을 줄였을 때 코딩이나 수학 도메인은 영향이 적지만, 다국어(Multilingual)나 RAG 도메인에서는 AL이 최대 10% 이상 크게 하락한다. 이는 특정 도메인에서 최적화 기법이 범용성을 해칠 수 있음을 시사한다.
어휘 사전 가지치기(Vocabulary Pruning)가 도메인별 Acceptance Length에 미치는 영향 분석 차트
한계점
현재 측정 프레임워크는 Python의 Global Interpreter Lock(GIL) 제약으로 인해 매우 높은 처리량(배치 사이즈 256 이상) 상황에서 클라이언트 측 오버헤드가 발생할 수 있다. 또한, 현재는 드래프팅 체인 방식에 집중하고 있으며 트리 기반 검증(Tree-based verification)에 대한 최적화 분석은 향후 과제로 남겨두고 있다.
실무 활용
LLM 서비스 운영자가 자신의 워크로드에 최적화된 Speculative Decoding 설정을 찾고, 실제 하드웨어 환경에서의 비용 효율성을 검증하는 데 즉시 활용 가능하다.
- 서비스 도메인(코드, 수학, 일반 대화 등)에 따른 최적의 Draft Length 결정
- vLLM 또는 TensorRT-LLM 도입 시 Speculative Decoding을 통한 실질적 TPS 향상 폭 측정
- 긴 문맥(Long-context) 처리 시 RoPE Scaling 설정이 드래프터 정확도에 미치는 영향 평가
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.