핵심 요약
LLM 강화학습 시 데이터 생성 속도와 모델 업데이트 속도 차이로 인해 발생하는 학습 불안정성 문제를 해결합니다. 기존의 급격한 가중치 절단 대신 부드러운 감쇠 방식을 도입하여, 비동기 환경에서도 성능 저하 없이 대규모 모델을 안정적으로 학습시킬 수 있는 이론적 기반을 제공합니다.
왜 중요한가
LLM 강화학습 시 데이터 생성 속도와 모델 업데이트 속도 차이로 인해 발생하는 학습 불안정성 문제를 해결합니다. 기존의 급격한 가중치 절단 대신 부드러운 감쇠 방식을 도입하여, 비동기 환경에서도 성능 저하 없이 대규모 모델을 안정적으로 학습시킬 수 있는 이론적 기반을 제공합니다.
핵심 기여
변분 원리에 기반한 시퀀스 수준 중요도 샘플링 재구성
중요도 샘플링의 분산 감소를 변분 문제로 공식화하여, 시퀀스 길이 정규화 없이도 작동하는 닫힌 형태(closed-form)의 재구성 커널을 도출함.
시퀀스 수준 가중치 직접 최적화
토큰 단위의 근사치에 의존하지 않고 전체 시퀀스 가중치를 직접 처리함으로써 토큰 간 의존성을 보존하고 길이 의존적 편향을 제거함.
극심한 정책 지연 및 비동기 환경에서의 안정성 입증
최대 64배의 지연 비율(staleness ratio)과 완전 비동기 실행 환경에서도 학습 붕괴 없이 안정적인 성능 향상을 달성함.
핵심 아이디어 이해하기
강화학습은 모델이 생성한 결과물에 보상을 주어 정답에 가까워지도록 Gradient Descent로 가중치를 갱신하는 과정이다. 이때 효율을 높이기 위해 과거의 모델이 만든 데이터를 재사용하는 오프-폴리시(Off-policy) 방식을 쓰는데, 현재 모델과 과거 모델의 확률 차이를 보정하는 중요도 샘플링(Importance Sampling)이 필수적이다. 하지만 LLM처럼 문장이 길어지면 각 토큰의 확률 차이가 곱해지면서 가중치가 기하급수적으로 커지거나 작아지는 분산 폭발 문제가 발생한다.
기존에는 이를 해결하기 위해 가중치를 강제로 자르거나(Clipping) 문장 길이로 나누는(Normalization) 방식을 썼지만, 이는 수학적으로 부정확하거나 특정 길이에 편향되는 부작용이 있었다. VESPO는 '가장 이상적인 샘플링 분포는 무엇인가?'라는 질문을 변분법(Variational Method)으로 풀어내어, 가중치가 너무 커지면 부드럽게 억제하는 수학적 커널을 찾아냈다.
결과적으로 문장이 길어져도 가중치가 폭주하지 않으며, 데이터가 조금 오래된 것이라도 모델이 이를 안전하게 학습에 반영할 수 있게 된다. 이는 비동기 대규모 학습 시스템에서 데이터 수집과 학습을 완전히 분리하더라도 안정적인 성능 향상을 가능하게 하는 핵심 원동력이 된다.
방법론
중요도 샘플링 재구성을 측도 변경(Measure Change) 관점에서 공식화한다. 임의의 재구성 함수 가 암시적인 제안 분포(Proposal Distribution) 를 정의함을 보이고, 이를 통해 최적의 를 찾는 변분 문제로 전환한다.
이중 근접성(Dual Proximity)과 분산 제약을 결합한 목적 함수를 구성한다. 가 샘플링 분포 와 타겟 정책 사이에 위치하도록 KL 발산(KL Divergence)을 최소화하면서, 동시에 라는 제약을 통해 분산을 통제한다.
라그랑주 승수법을 적용하여 닫힌 형태의 해 를 도출한다. 이를 통해 최종적인 재구성 커널 를 얻으며, 이는 거듭제곱 항과 지수적 억제 항으로 구성된다.
실무적 구현을 위해 이 되도록 이동시킨 형태인 를 사용한다. 양수와 음수의 어드밴티지(Advantage)에 대해 서로 다른 하이퍼파라미터 를 적용하여 비대칭적인 억제를 수행한다. 이 커널은 시퀀스 수준 가중치 를 입력으로 받아 지수 함수 연산을 거쳐 가중치를 부드럽게 억제하는 숫자를 출력하며, 극단적인 샘플이 그래디언트를 폭주시킴을 방지한다.
주요 결과
수학적 추론 벤치마크(AIME, AMC, MATH-500)에서 검증한 결과, Qwen3-30B-A3B-Base 모델에서 기존 GRPO, GSPO, SAPO 대비 가장 높은 평균 정확도를 기록했다. 특히 MoE 아키텍처에서 발생하는 학습-추론 불일치 상황에서도 독보적인 안정성을 보였다.
정책 지연(Staleness) 실험에서 지연 비율 을 4에서 64까지 변화시켰을 때, 다른 기법들은 이상에서 학습이 붕괴되거나 성능이 급감한 반면, VESPO는 에서도 거의 동일한 학습 곡선과 성능을 유지했다.
완전 비동기 학습 환경(Asynchronous Training)에서도 VESPO는 가장 높은 보상과 벤치마크 점수를 달성했다. 기존 기법들이 로그 퍼플렉시티(Log-perplexity) 발산이나 보상 붕괴를 겪는 것과 대조적으로, VESPO는 안정적인 KL 발산과 제어된 그래디언트 노름을 유지했다.
기술 상세
VESPO는 REINFORCE 스타일의 정책 경사 알고리즘을 기반으로 하며, 시퀀스 수준의 중요도 가중치 를 직접 스케일링 계수로 사용한다. 모든 계산은 수치적 안정성을 위해 로그 공간(Log-space)에서 수행되어 오버플로우를 방지한다.
기존 GRPO가 토큰 단위 클리핑을 통해 시퀀스 수준 IS의 1차 근사치만을 사용하는 한계를 극복하기 위해, 전체 시퀀스 확률의 곱 구조를 유지하면서도 지수적 감쇠를 통해 분산을 제어한다. 이는 토큰 간의 의존성을 온전히 보존할 수 있게 한다.
길이 정규화(Length Normalization)를 배제함으로써 긴 시퀀스가 과도하게 가중치를 받는 '길이 편향(Length Bias)' 문제를 해결했다. 이는 GSPO와 같은 기존 시퀀스 수준 기법들이 겪는 고질적인 학습 불안정 원인인 피드백 루프를 제거한 것이다.
비대칭 하이퍼파라미터 설계를 통해 긍정적 샘플()에 대해서는 학습 신호를 보존하고, 부정적 샘플()에 대해서는 더 강력한 억제를 적용하여 정책이 급격하게 변하는 것을 방지한다. 구현 시 추가적인 메모리 오버헤드 없이 각 토큰의 로그 확률만 저장하면 된다.
실무 활용
대규모 GPU 클러스터에서 비동기적으로 LLM을 강화학습시켜야 하는 환경에 매우 적합합니다. 데이터 수집 노드와 학습 노드를 분리하여 처리량을 극대화하면서도 학습 안정성을 보장할 수 있습니다.
- 비동기 분산 강화학습 시스템 구축
- MoE 모델의 학습-추론 엔진 불일치 해결
- 수학적 추론 및 코드 생성 모델의 안정적 파인튜닝
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.