speculative-decoding
상대적으로 작고 빠른 드래프트 모델이 먼저 여러 토큰을 생성하고, 큰 타겟 모델이 이를 한 번에 검증하는 기법이다. 검증 성공 시 여러 토큰을 동시에 생성한 효과를 내어 추론 속도를 획기적으로 높인다.
397B 파라미터의 괴물급 성능, Qwen 3.5가 보여준 놀라운 멀티모달 실행력
GPU 비용은 낮추고 속도는 2배 높이는 LLM 추론 최적화 가이드
2025년 AI 연구의 결정적 순간들과 코딩 에이전트의 진화
LLM 추론 속도 2배 향상, 사소한 오답은 넘기는 AutoJudge 기술
Together AI, 오픈소스 LLM 추론 속도 최대 2배 향상