VESPO: 안정적인 오프-폴리시 LLM 학습을 위한 변분 시퀀스 수준 소프트 정책 최적화

핵심 요약

대형 언어 모델(LLM)을 위한 강화학습(Reinforcement Learning, RL)에서 학습 안정성은 여전히 핵심적인 과제입니다. 정책 노후화(Policy staleness), 비동기 학습(Asynchronous training), 그리고 학습 엔진과 추론 엔진 간의 불일치는 행동 정책(Behavior policy)이 현재 정책에서 벗어나게 만들어 학습 붕괴의 위험을 초래합니다. 중요도 샘플링(Importance sampling)은 이러한 분포 변화를 교정하기 위한 원칙적인 방법이지만 높은 분산(Variance) 문제를 겪으며, 토큰 수준의 클리핑(Clipping)이나 시퀀스 수준의 정규화(Normalization)와 같은 기존의 해결책들은 통일된 이론적 근거가 부족합니다. 본 논문에서는 변분 시퀀스 수준 소프트 정책 최적화(Variational sEquence-level Soft Policy Optimization, VESPO)를 제안합니다. 제안 분포(Proposal distributions)에 대한 변분 공식에 분산 감소 기법을 통합함으로써, VESPO는 길이 정규화 없이 시퀀스 수준의 중요도 가중치에 직접 작용하는 폐쇄형 재구성 커널(Closed-form reshaping kernel)을 도출합니다. 수학적 추론 벤치마크 실험 결과, VESPO는 최대 64배의 지연 비율과 완전 비동기 실행 환경에서도 안정적인 학습을 유지하며, 밀집(Dense) 모델과 전문가 혼합(Mixture-of-Experts, MoE) 모델 모두에서 일관된 성능 향상을 보여주었습니다.

난이도고급

핵심 기여

변분 공식 기반의 통합 이론 제시

중요도 샘플링의 분산 감소 문제를 제안 분포에 대한 변분 최적화 문제로 정의하여 기존 휴리스틱 기법들을 대체할 수 있는 엄밀한 이론적 기반을 마련했습니다.

폐쇄형 재구성 커널 도출

시퀀스 길이에 따른 별도의 정규화 과정 없이도 시퀀스 수준의 중요도 가중치를 효과적으로 조정할 수 있는 수학적 해법을 제공하여 계산 효율성을 높였습니다.

극한의 비동기 환경 내 학습 안정성 확보

정책 지연 비율이 64배에 달하는 상황이나 완전 비동기 실행 환경에서도 학습 붕괴 없이 안정적인 수렴을 달성할 수 있음을 입증했습니다.

다양한 모델 아키텍처 범용성 검증

일반적인 밀집(Dense) 모델뿐만 아니라 구조가 복잡한 전문가 혼합(Mixture-of-Experts, MoE) 모델에서도 일관된 성능 개선 효과를 확인했습니다.

방법론

VESPO는 중요도 샘플링의 분산을 줄이기 위해 제안 분포(Proposal distribution)를 최적화하는 변분 프레임워크를 도입했습니다. 이를 통해 시퀀스 수준의 중요도 가중치를 직접 변환하는 폐쇄형 재구성 커널(Closed-form reshaping kernel)을 유도하며, 이는 기존의 토큰 단위 클리핑이나 길이 정규화 방식과 달리 이론적으로 엄밀한 분산 제어 메커니즘을 제공합니다.

주요 결과

수학적 추론 벤치마크 실험에서 정책 지연 비율(Staleness ratio)이 최대 64배인 극한의 조건에서도 학습이 붕괴되지 않고 안정적으로 진행되었습니다. 완전 비동기 실행 환경에서 기존 베이스라인 대비 우수한 성능을 기록했으며, Dense 모델과 MoE 모델 모두에서 일관된 벤치마크 점수 향상을 달성했습니다.

시사점

비동기 학습 환경에서 발생하는 정책 지연 문제를 해결함으로써 대규모 LLM 학습 시 인프라 활용 효율을 극대화할 수 있습니다. 특히 학습과 추론 엔진이 분리된 복잡한 분산 시스템에서도 안정적인 강화학습이 가능해져 실무적인 대규모 모델 정렬(Alignment) 파이프라인 구축에 기여할 것입니다.

키워드

강화학습(Reinforcement Learning)대형 언어 모델(LLM)오프-폴리시 학습(Off-Policy Training)정책 지연(Policy Staleness)중요도 샘플링(Importance Sampling)분산 감소(Variance Reduction)전문가 혼합(Mixture-of-Experts)

섹션별 상세

변분 공식 기반의 통합 이론 제시

폐쇄형 재구성 커널 도출

극한의 비동기 환경 내 학습 안정성 확보

정책 지연 비율이 64배에 달하는 상황이나 완전 비동기 실행 환경에서도 학습 붕괴 없이 안정적인 수렴을 달성할 수 있음을 입증했습니다.

다양한 모델 아키텍처 범용성 검증

일반적인 밀집(Dense) 모델뿐만 아니라 구조가 복잡한 전문가 혼합(Mixture-of-Experts, MoE) 모델에서도 일관된 성능 개선 효과를 확인했습니다.

VESPO: 안정적인 오프-폴리시 LLM 학습을 위한 변분 시퀀스 수준 소프트 정책 최적화

핵심 요약

핵심 기여

방법론

주요 결과

시사점

키워드

섹션별 상세

변분 공식 기반의 통합 이론 제시

폐쇄형 재구성 커널 도출

극한의 비동기 환경 내 학습 안정성 확보

다양한 모델 아키텍처 범용성 검증

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글