Aurora: 실시간 추론 데이터를 활용한 온라인 강화학습 기반 추측 디코딩 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Aurora는 실시간 추론 트레이스를 직접 학습하여 서비스 중단 없이 드래프트 모델을 지속적으로 업데이트하는 오픈소스 강화학습 기반 프레임워크이다. 기존의 정적 추측 디코딩 방식이 사용자 트래픽의 도메인 변화에 따라 성능이 저하되는 문제를 해결하기 위해, 추론 서버와 학습 서버를 분리한 비동기식 'Serve-to-Train' 플라이휠 구조를 채택했다. 실험 결과 Aurora는 잘 훈련된 정적 모델 대비 1.25배의 추가 속도 향상을 기록했으며, 도메인 전환 시에도 약 10,000개의 요청 내에 성능을 회복하는 적응력을 보였다. 이 시스템은 대규모 오프라인 데이터 수집 비용을 절감하면서도 실제 배포 환경의 하드웨어 및 소프트웨어 특성을 반영한 최적화를 가능하게 한다.

배경

Speculative Decoding의 기본 개념, 강화학습(RL)의 정책 및 보상 메커니즘, vLLM 또는 SGLang과 같은 LLM 추론 엔진 구조

대상 독자

LLM 추론 성능 최적화 및 프로덕션 배포를 담당하는 AI 엔지니어 및 연구원

의미 / 영향

이 연구는 추측 디코딩을 단순한 모델링 문제가 아닌 시스템적 학습-서빙 루프로 재정의했다는 점에서 큰 의미가 있습니다. 향후 LLM 서비스들은 정적 모델 배포에 그치지 않고, Aurora와 같은 프레임워크를 통해 실시간 사용자 데이터에 맞춰 스스로 진화하는 자율형 추론 시스템으로 발전할 것으로 전망됩니다.

섹션별 상세

기존의 오프라인 학습 기반 추측 디코딩 파이프라인은 트래픽 패턴 변화에 따른 모델 노후화와 막대한 데이터 수집 비용 문제를 안고 있다. 타겟 모델이 업데이트되거나 사용자 도메인이 수학에서 코딩으로 급격히 변할 경우 정적인 드래프트 모델의 토큰 수락률이 급감하며 추론 효율이 떨어진다. Aurora는 이러한 단방향 구조를 순환적인 적응형 구조로 전환하여 실시간 데이터로부터 직접 학습함으로써 성능 저하를 방지한다.

Aurora의 핵심 아키텍처는 추론 서버와 학습 서버가 분리되어 비동기적으로 작동하는 'Serve-to-Train' 플라이휠 구조이다. 추론 서버는 SGLang 또는 vLLM 엔진을 통해 토큰을 생성하고, 수락 및 거절된 토큰 정보를 포함한 추론 트레이스를 분산 데이터 버퍼로 스트리밍한다. 학습 서버는 이 버퍼에서 데이터를 가져와 드래프트 모델의 가중치를 업데이트하고, 개선된 가중치를 서비스 중단 없이 추론 서버에 핫스왑 방식으로 전달한다.

온라인 추측 학습을 비동기 강화학습 문제로 재정의하여 드래프트 모델을 정책으로, 타겟 모델의 검증 결과를 보상으로 활용한다. 수락된 토큰에 대해서는 교차 엔트로피 손실을 통해 모방 학습을 수행하고, 거절된 토큰에 대해서는 'Discard Sampling' 손실을 적용해 부적절한 제안을 피하도록 학습한다. 특히 트리 어텐션 메커니즘을 도입하여 복잡한 분기 구조를 가진 추측 결과를 단일 배치 패스로 효율적으로 처리한다.

수학, SQL, 코드 생성 등 5개 도메인이 섞인 40,000개의 프롬프트 스트림 테스트에서 Aurora는 급격한 도메인 변화에도 빠르게 적응하는 성능을 입증했다. 도메인 전환 후 약 10,000개의 요청이 처리되는 동안 수락 길이를 회복하며 정적 모델 대비 우수한 성능을 유지했다. Qwen3-8B 모델 기준, 이미 잘 훈련된 정적 드래프트 모델보다 1.25배 더 높은 추가 속도 향상을 달성하며 온라인 학습의 유효성을 증명했다.

실무 Takeaway

사용자 요청 도메인이 빈번하게 바뀌는 프로덕션 환경에서 Aurora를 도입하면 정적 드래프트 모델의 성능 저하를 막고 추론 속도를 지속적으로 최적화할 수 있다.
오프라인에서 페타바이트급 활성화 데이터를 수집하고 저장하는 대신 실시간 추론 트레이스를 활용함으로써 인프라 운영 비용과 복잡성을 획기적으로 줄일 수 있다.
강화학습 기반의 온라인 튜닝을 통해 특정 하드웨어나 커널 최적화 상태 등 실제 배포 환경의 물리적 특성이 반영된 최적의 드래프트 모델을 확보할 수 있다.

언급된 리소스

GitHubAurora GitHub Repository