적응형 레이어별 섭동: LLM 강화학습을 위한 오프-폴리시 교정의 통합

왜 중요한가

LLM을 강화학습으로 훈련할 때 추론 엔진의 설정 차이나 데이터 수집 시점의 차이로 인해 훈련이 갑자기 붕괴되는 현상이 잦다. 이 논문은 모델의 각 층에 학습 가능한 미세한 소음을 섞는 간단한 방법으로 훈련 과정을 매끄럽게 만들어, 복잡한 수학 문제나 도구 사용 시나리오에서 훨씬 안정적인 성능 향상을 이끌어냈다.

핵심 기여

Adaptive Layerwise Perturbation (ALP) 기법 제안

Transformer 모델의 각 레이어 입력 은닉 상태(Hidden States)에 학습 가능한 가우시안 섭동을 주입하여 훈련 안정성을 획기적으로 높이는 기법을 도입했다.

오프-폴리시(Off-Policy) 문제의 통합 해결

정책 노후화와 훈련-추론 불일치 문제를 단일 중요도 샘플링 비율 내에서 통합적으로 처리하여, 기존의 복잡한 수동 튜닝과 마스킹 기법의 한계를 극복했다.

이론적 안정성 및 매끄러움 증명

ALP가 업데이트된 정책과 추론 정책 사이의 KL 발산을 제한하고, 손실 함수 지형의 곡률을 낮추어(Smoothing) 최적화를 안정화한다는 것을 수학적으로 입증했다.

수학 및 도구 통합 추론 성능 향상

Math500, AIME2024 등 고난도 수학 벤치마크와 다중 턴 도구 사용 과제에서 기존 GRPO 및 MIS 대비 우수한 정확도와 안정적인 훈련 곡선을 보였다.

핵심 아이디어 이해하기

강화학습에서 현재 학습 중인 모델과 데이터를 수집한 모델 사이의 차이를 보정하기 위해 Importance Sampling을 사용한다. 하지만 LLM은 아주 작은 가중치 변화에도 특정 토큰의 확률이 급격히 변하는 '날카로운(Sharp)' 특성이 있어, 두 모델의 확률 비율이 기하급수적으로 커지며 훈련이 붕괴되는 현상이 발생한다.

ALP는 이 문제를 해결하기 위해 모델의 각 레이어가 처리하는 데이터(Hidden State)에 아주 미세한 무작위 소음(Perturbation)을 섞는다. 이는 마치 울퉁불퉁하고 뾰족한 산길을 평평하게 다지는 것과 같아서, 모델이 특정 정답에만 과도하게 집착하여 확률이 튀는 것을 방지하고 최적화 경로를 부드럽게 만든다.

결과적으로 훈련 중인 모델이 기존 데이터 수집 모델의 범위를 크게 벗어나지 않도록 '안전 구역(Trust Region)' 안에 묶어두는 효과를 낸다. 이를 통해 훈련 중 갑작스러운 성능 하락(KL Spike)을 막고, 모델이 더 다양한 정답 경로를 탐색(Exploration)할 수 있게 하여 최종적인 문제 해결 능력을 높인다.

방법론

ALP는 모델의 각 레이어 $h$ 의 입력 은닉 상태에 가우시안 섭동 $\delta^h \sim \mathcal{N}(0, \sigma_h^2 I)$ 를 더한다. [레이어 입력값 $x$ 와 무작위 벡터 $\delta$ 를 입력으로] → [덧셈 연산을 수행해] → [변형된 입력 $x+\delta$ 를 얻고] → [이 값이 다음 레이어로 전달되어 최종 출력 확률 분포를 부드럽게 분산시키는 의미]를 가진다.

훈련 시 중요도 샘플링 비율 $\rho$ 의 분자(업데이트 대상 정책)에만 이 섭동을 적용한다. [섭동이 포함된 정책 확률 $\pi_{\theta, \sigma}$ 를 분자로, 섭동 없는 추론 정책 $\pi_{old}^{infer}$ 를 분모로 설정해] → [나눗셈 연산을 수행해] → [단일 중요도 비율을 얻고] → [이 비율이 급격히 커지는 것을 억제하여 훈련 안정성을 확보하는 의미]이다.

섭동의 강도를 결정하는 표준편차 $\sigma$ 는 고정값이 아니라 훈련 과정에서 학습되는 파라미터이다. [현재 모델의 그래디언트와 손실 값을 입력으로] → [최적화 알고리즘을 통해 $\sigma$ 를 갱신하는 연산을 수행해] → [각 레이어에 최적화된 소음 크기를 얻고] → [모델의 깊이에 따라 필요한 만큼의 부드러움을 동적으로 조절하는 의미]를 갖는다.

주요 결과

단일 턴 수학 추론 실험에서 Token-ALP 모델은 Math500(78.10%), Minerva Math(37.27%), AIME24(21.46%) 등 주요 벤치마크에서 GRPO 및 MIS(Masked Importance Sampling)를 능가하는 최고 성능을 기록했다. 특히 AIME24에서는 기존 GRPO(16.77%) 대비 약 4.7%p의 큰 폭의 성능 향상을 보였다.

다중 턴 도구 통합 추론(TIR) 과제에서도 Seq-ALP가 평균 50.53%의 정확도를 달성하며 Token-MIS(48.74%)와 GRPO(46.57%)를 앞섰다. 훈련 곡선 분석 결과, ALP는 다른 기법들이 겪는 KL 발산 급증(Spike)이나 엔트로피 붕괴 현상 없이 매우 안정적인 최적화 흐름을 유지했다.

Ablation Study를 통해 모든 레이어에 섭동을 주는 방식이 일부 레이어나 출력 로짓(Logits)에만 주는 방식보다 월등히 효과적임을 확인했다. 또한, 섭동이 모델의 탐색 능력을 높여 Pass@k 지표가 모든 k 구간에서 일관되게 상승하는 결과를 얻었다.

실무 활용

LLM 강화학습을 실무에 적용할 때 발생하는 훈련 불안정성 문제를 모델 구조 변경 없이 레이어 입력단에 노이즈를 추가하는 것만으로 해결할 수 있는 실용적인 기법이다. 특히 추론 엔진과 훈련 프레임워크 간의 수치적 차이로 고통받는 엔지니어들에게 유용하다.

수학, 코딩 등 정답이 명확하여 강화학습(RL) 효율이 높은 도메인의 모델 훈련
vLLM, SGLang 등 고속 추론 엔진을 사용하여 오프-폴리시 데이터를 생성하는 RL 파이프라인 구축
에이전트가 여러 단계의 도구를 호출하며 피드백을 받는 복잡한 다중 턴 시나리오 학습
훈련 중 KL 발산이 튀거나 모델이 특정 답변으로 편향되는 현상을 방지하고 싶을 때

기술 상세

ALP는 Transformer 아키텍처의 각 레이어 입력 은닉 상태에 학습 가능한 노이즈를 주입하여 정책 분포의 지지 집합(Support)을 확장한다. 이는 이론적으로 업데이트된 정책 $\pi_\theta$ 가 추론 정책 $\pi_{old}^{infer}$ 를 포함하는 더 넓은 분포 가족을 형성하게 하여, 시스템 노이즈로 인한 분포 불일치를 흡수하는 역할을 한다.

수학적으로 ALP는 손실 함수의 헤시안 스펙트럼 노름(Hessian Spectral Norm)을 줄여 곡률을 낮춘다. [입력 $x$ 에 대한 손실 함수의 2차 미분값을 계산해] → [그 최대 고윳값을 구하면] → [지형의 가파른 정도가 수치화되고] → [ALP는 이 수치를 낮추어 경사 하강법이 더 안정적인 평평한 최적점(Flat Minima)을 찾도록 유도하는 의미]이다.

기존의 MIS가 중요도 비율이 임계치를 넘으면 그래디언트를 차단하여 학습 신호를 손실시키는 것과 달리, ALP는 비율 자체를 부드럽게 만들어 모든 토큰에서 유효한 학습 신호를 유지하면서도 극단적인 업데이트를 방지한다.

구현 측면에서 섭동 파라미터 $\sigma$ 는 각 레이어의 차원에 맞춰 벡터 형태로 관리되며, AdamW 옵티마이저를 통해 정책 파라미터와 함께 최적화된다. 실험 결과 초기 $\sigma$ 값은 $1 \times 10^{-4}$ 수준이 적절하며, 훈련이 진행됨에 따라 모델의 필요에 맞춰 적응적으로 조절된다.

한계점

현재 ALP는 가우시안 섭동에 집중하고 있으며, 다른 형태의 무작위 분포나 Mixture-of-Experts(MoE) 모델에서의 라우팅 결정에 미치는 영향에 대해서는 추가 연구가 필요하다. 또한 완전 비동기식 RL 시스템에서의 검증이 아직 이루어지지 않았다.

키워드

RL(강화학습)LLM(대형 언어 모델)Off-Policy(오프-폴리시)Importance-Sampling(중요도 샘플링)Training-Stability(훈련 안정성)