vLLM V0에서 V1으로의 전환: 강화학습에서의 추론 정확도 확보 과정

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

강화학습(RL) 훈련에서 추론 엔진의 로그 확률(Logprobs) 계산 방식 차이는 훈련 역학을 근본적으로 변화시킬 수 있다. 본 아티클은 vLLM V0에서 V1으로 전환하며 발생한 훈련-추론 불일치 문제를 해결하기 위해 로그 확률 처리 모드, 런타임 기본값, 가중치 업데이트 경로, 그리고 fp32 lm_head 적용이라는 네 가지 핵심 수정을 수행한 과정을 설명한다. 특히 로그 확률의 의미론적 일치와 수치적 정밀도를 확보함으로써 V1 엔진이 기존 V0 참조 모델의 보상 및 엔트로피 궤적을 정확히 추적할 수 있음을 입증했다. 결과적으로 목적 함수를 수정하기 전에 백엔드 추론의 정확성을 먼저 확보하는 것이 안정적인 RL 시스템 구축의 핵심임을 강조한다.

배경

vLLM 추론 엔진에 대한 기본 지식, PPO, GRPO 등 온라인 강화학습(Online RL)의 작동 원리, 로그 확률(Logprobs) 및 로짓(Logits) 계산 개념

대상 독자

LLM 강화학습 시스템을 구축하거나 vLLM을 추론 엔진으로 사용하는 ML 엔지니어

의미 / 영향

이 아티클은 고성능 추론 엔진의 버전 업그레이드가 단순한 성능 향상을 넘어 모델 훈련의 수렴성에 결정적인 영향을 미칠 수 있음을 시사합니다. 특히 정밀도와 캐싱 정책 같은 세부 설정이 RL 시스템의 안정성에 미치는 영향을 구체적인 수치로 제시하여 실무자들에게 중요한 체크리스트를 제공합니다.

섹션별 상세

vLLM V1은 V0와 구조적으로 다르기 때문에 롤아웃 생성 시 반환되는 로그 확률의 의미가 달라질 수 있다. 초기 테스트에서 V1은 기본적으로 온도 스케일링이나 필터링이 적용되지 않은 원시 출력을 반환하여 훈련 지표의 편차를 발생시켰다. 이를 해결하기 위해 logprobs-mode를 processed_logprobs로 설정하여 샘플러가 사용하는 처리된 분포와 일치시켰다. 이 수정을 통해 정책 비율의 평균 편차를 1.0에 가깝게 유지하며 의미론적 불일치를 제거했다.

V1의 새로운 런타임 기본값인 접두사 캐싱(Prefix Caching)과 비동기 스케줄링이 온라인 RL 환경에서 불확실성을 초래했다. 온라인 RL에서는 가중치가 실시간으로 업데이트되는데, 캐싱 정책이 업데이트 경계를 무시할 경우 이전 가중치로 계산된 상태를 재사용할 위험이 있다. 이를 방지하기 위해 접두사 캐싱과 비동기 스케줄링을 명시적으로 비활성화하여 V0와 동일한 실행 경로를 확보했다. 이러한 설정 제어는 마이그레이션 비교 시 변수를 최소화하는 데 필수적이다.

실시간 가중치 동기화 방식이 V0의 동작과 일치하도록 V1의 업데이트 로직을 조정했다. V0는 엔진 경계에서 실행을 차단하고 새 가중치를 로드한 후 캐시 무효화 없이 재개하는 방식을 취했다. V1에서도 이와 유사하게 세션을 유지하면서 캐시를 지우지 않는 pause_generation(mode='keep') 옵션을 사용하여 가중치 업데이트 지연(Lag)을 최소화했다. 결과적으로 훈련 후반부에서 발생하는 지속적인 지연 현상을 효과적으로 제거할 수 있었다.

최종 로짓 계산 시 수치적 정밀도 차이가 RL 업데이트의 정책 비율과 클리핑 지표에 가시적인 영향을 미쳤다. 훈련기(Trainer)는 fp32 lm_head를 사용하여 최종 투영을 수행하므로, 추론 백엔드에서도 동일한 정밀도를 사용해야 수치적 일관성이 유지된다. MiniMax-M1 및 ScaleRL 연구 사례와 마찬가지로 fp32 헤드 계산을 적용한 후에야 V1의 보상 곡선이 V0 참조 모델과 완벽하게 일치했다. 이는 미세한 로짓 차이가 RL 최적화 대상인 로그 확률에 직접적인 영향을 주기 때문이다.

실무 Takeaway

강화학습 시스템 마이그레이션 시 목적 함수(Objective)를 수정하기 전에 추론 백엔드의 로그 확률 계산 방식이 기존과 동일한지 먼저 검증해야 한다.
vLLM V1 도입 시 logprobs-mode를 processed_logprobs로 설정하고 fp32 lm_head를 사용하여 훈련기와 추론기 간의 수치적 정밀도 불일치를 제거해야 한다.
온라인 RL 환경에서는 가중치 업데이트 경계에서의 데이터 일관성을 위해 접두사 캐싱(Prefix Caching)과 같은 최적화 기능을 신중하게 제어해야 한다.

언급된 리소스

논문MiniMax-M1 Technical Report

논문ScaleRL Paper