핵심 요약
투기적 디코딩(Speculative decoding)은 가벼운 초안 모델(draft model)을 사용하여 후보 토큰을 제안하고, 이를 타겟 모델(target model)이 병렬로 검증함으로써 자기회귀적(autoregressive) 대형 언어 모델(LLM)의 추론을 가속화합니다. 가속화 성능은 수락률(acceptance rate)에 의해 결정되지만, 표준 학습 방식은 대리 목적 함수로 쿨백-라이블러 발산(Kullback-Leibler divergence, KL divergence)을 최소화하는 데 그칩니다. KL 발산과 수락률은 동일한 전역 최적해를 공유하지만, 용량이 제한된 작은 초안 모델은 하위 최적해로 수렴하는 경우가 많으며 이때 KL 최소화가 수락률 극대화를 보장하지 못합니다. 본 논문에서는 이 문제를 해결하기 위해 수락률을 직접 목표로 삼는 특수 학습 목적 함수인 LK 손실(LK losses)을 제안합니다. 8B에서 685B 매개변수 규모의 4개 초안 아키텍처와 6개 타겟 모델을 대상으로 한 실험 결과, 표준 KL 기반 학습 대비 모든 구성에서 수락 지표가 일관되게 개선되었습니다. 일반, 코딩, 수학 도메인에서 평균 수락 길이(average acceptance length)가 최대 8-10% 증가하는 성과를 거두었습니다. LK 손실은 구현이 간단하고 추가적인 계산 오버헤드가 없으며 기존의 모든 투기적 모델 학습 프레임워크에 직접 통합될 수 있습니다.
핵심 기여
LK 손실 함수 개발
투기적 디코딩의 핵심 성능 지표인 수락률을 직접 최적화할 수 있는 새로운 형태의 학습 목적 함수를 설계했습니다.
KL 발산 기반 학습의 한계 분석
소형 초안 모델에서 KL 발산 최소화와 수락률 극대화 사이의 불일치 현상을 이론적 및 실험적으로 규명했습니다.
대규모 모델 및 다중 도메인 검증
8B부터 685B에 이르는 다양한 규모의 모델과 코딩, 수학 등 전문 도메인에서 일관된 성능 향상을 입증했습니다.
실용적인 통합 프레임워크 제공
추가 연산 비용 없이 기존의 투기적 디코딩 학습 파이프라인에 즉시 적용 가능한 구조를 제안했습니다.
방법론
초안 모델의 출력 분포와 타겟 모델의 분포 사이에서 발생하는 수락 확률을 직접 미분 가능한 형태로 수식화하여 LK 손실 함수를 정의했습니다. 이를 통해 모델의 용량이 부족하여 전체 분포를 완벽히 모사하기 어려운 상황에서도, 실제 추론 가속에 가장 기여도가 높은 토큰들을 우선적으로 학습하도록 유도합니다.
주요 결과
8B에서 685B 규모의 6개 타겟 모델을 대상으로 실험한 결과, 기존 KL 기반 학습 대비 평균 수락 길이(Average Acceptance Length)가 8-10% 향상되었습니다. 특히 복잡한 논리 구조를 가진 코딩 및 수학 벤치마크에서도 일관되게 높은 수락률을 기록하며 추론 효율성을 증명했습니다.
시사점
투기적 디코딩을 사용하는 실무 환경에서 추가적인 하드웨어 자원이나 추론 시 연산 오버헤드 없이, 학습 단계의 손실 함수 변경만으로 즉각적인 추론 속도 향상을 얻을 수 있습니다. 이는 대규모 언어 모델 서빙의 비용 효율성을 높이는 데 실질적인 기여를 할 것입니다.
키워드
섹션별 상세
LK 손실 함수 개발
KL 발산 기반 학습의 한계 분석
대규모 모델 및 다중 도메인 검증
실용적인 통합 프레임워크 제공
AI 요약 · 북마크 · 개인 피드 설정 — 무료