이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
TL;DR
Orthrus는 고정된 AR Transformer에 확산 기반 어텐션 모듈을 주입하여 정확도 손실 없이 추론 속도를 7.8배 가속하는 기법이다.
배경
저자가 자신의 연구인 Orthrus를 공개하며, 기존 확산 기반 언어 모델 및 추론 가속 기법들과 비교하여 정확도와 속도 측면의 이점을 설명했다.
섹션별 상세
Orthrus는 고정된 AR Transformer의 각 층에 학습 가능한 확산 어텐션 모듈을 주입하여 작동한다. 확산 헤드가 32개의 토큰을 병렬로 투영하고, AR 헤드가 이를 검증하여 가장 긴 일치 접두사를 선택한다. 이 방식은 출력 분포를 원본 모델과 동일하게 유지하면서 추론 속도를 높인다.
기존 확산 기반 언어 모델들은 기본 가중치를 수정하여 정확도 손실이 발생했으나, Orthrus는 백본을 고정하여 Qwen3-8B와 동일한 정확도를 유지한다. 8xH200 환경에서 24시간 학습으로 16%의 파라미터를 훈련하여 MATH-500 벤치마크에서 7.8배의 TPF 향상을 달성했다.
기존 Speculative Decoding 기법인 EAGLE-3나 DFlash와 달리 외부 드래프터 모델이나 별도의 캐시가 필요하지 않다. 이로 인해 TTFT 페널티가 없으며, KV 캐시 오버헤드는 약 4.5 MiB로 매우 낮다. MATH-500에서 11.7의 수용 길이를 기록하여 DFlash(7.9)와 EAGLE-3(3.5)를 상회했다.
언급된 리소스
GitHubOrthrus GitHub
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 05. 16.수집 2026. 05. 16.출처 타입 REDDIT
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.