왜 중요한가
강화학습(RLVR)이 LLM의 추론 능력을 어떻게 개선하는지에 대한 새로운 시각을 제시합니다. 기존의 변화량 중심 분석에서 벗어나 변화의 '방향'이 핵심임을 입증하고, 이를 활용해 추가 학습 없이도 성능을 높이는 실용적인 방법론을 제안하여 모델 최적화 비용을 크게 절감할 수 있습니다.
핵심 기여
방향성 지표 Δ log p 제안
기존의 엔트로피나 KL 발산 같은 크기 기반 지표보다 모델 업데이트의 방향을 나타내는 로그 확률 차이가 추론에 핵심적인 토큰을 더 정확하게 식별함을 입증했다.
테스트 시점 선택적 외삽 기법 개발
학습된 Δ log p 방향으로 확률 분포를 증폭시키는 기법을 통해, 추가적인 파라미터 업데이트 없이도 AIME-24 등 벤치마크에서 성능 향상을 달성했다.
확률 기반 이득 재가중 방법론 제시
학습 시 모델이 확신하지 못하는 낮은 확률의 토큰에 더 큰 그래디언트 가중치를 부여함으로써 RLVR 학습의 효율성과 최종 추론 정확도를 개선했다.
핵심 아이디어 이해하기
강화학습(RL)은 모델이 정답에 이르는 경로를 더 자주 선택하도록 확률 분포를 조정한다. 기존 연구들은 이 과정에서 모델의 확률 분포가 얼마나 많이 변했는지(Magnitude)를 측정하여 '희소한 업데이트'가 일어난다는 점에 주목했다. 하지만 이는 모델이 긍정적인 방향으로 변했는지, 부정적인 방향으로 변했는지를 구분하지 못한다는 한계가 있다.
본 논문은 기본 모델과 RL 모델 간의 로그 확률 차이인 Δ log p를 통해 '방향(Direction)'을 분석한다. Softmax 함수를 통과하기 전의 점수인 Logit의 변화를 추적하면, 모델이 특정 토큰을 정답으로 가는 핵심 징검다리로 인식하여 확률을 높였는지(양수) 아니면 오답 경로로 판단하여 낮췄는지(음수)를 명확히 알 수 있다.
분석 결과, RLVR의 성능 향상은 전체적인 분포 변화가 아니라 모델이 처음에 확신이 없었던 '낮은 확률 토큰'들의 방향성을 수정하는 데서 온다는 것을 발견했다. 이 방향성을 테스트 시점에 더 강하게 밀어주거나(Extrapolation), 학습 시점에 해당 토큰들에 집중하도록 가중치를 조절함으로써 추론 성능의 한계를 돌파할 수 있다.
방법론
본 논문은 RLVR 업데이트의 방향성을 정량화하고 이를 활용하는 두 가지 주요 방법론을 제시한다.
첫째, 테스트 시점 외삽(Test-time Extrapolation)은 log pi_Extra = (1 + gamma) log pi_RL - gamma log pi_Base 수식을 적용한다. [RL 모델과 기본 모델의 로그 확률 차이에 스케일 계수 gamma를 곱하여 RL 모델의 분포를 더 확장함] → [강화학습이 학습한 '추론 방향'으로의 확률이 지수적으로 증폭됨] → [추론에 결정적인 핵심 토큰이 선택될 확률이 높아짐] → [추가 학습 없이도 벤치마크 성능이 향상됨].
둘째, 학습 시점 재가중(Training-time Reweighting)은 Advantage(이득) 항을 수정하여 학습 효율을 높인다. 수정된 이득은 A_tilde = [1 + alpha(1 - pi_old)] A_hat으로 계산된다. [현재 모델이 해당 토큰을 생성할 확률 pi_old의 보수값(1 - pi_old)을 기존 Advantage에 곱함] → [모델이 생성 확률을 낮게 잡았던, 즉 확신이 없었던 토큰에 대해 더 강한 업데이트 신호를 부여함] → [추론 성능 개선에 기여도가 높은 희귀 토큰 학습에 최적화가 집중됨] → [전체적인 추론 정확도와 학습 안정성이 개선됨].
주요 결과
AIME-24 벤치마크에서 제안된 테스트 시점 외삽 기법을 적용한 결과, Qwen2.5-Math-7B 모델의 성능이 기존 RLVR 모델 대비 약 1~3점 추가 향상되었다. 특히 선택적 외삽(Selective Extrapolation)은 전체 토큰의 약 10%만 수정하고도 RLVR 모델의 전체 성능을 능가하는 효율성을 보였다.
학습 시점 재가중 기법을 적용했을 때, Qwen3-8B-Base 모델은 AIME-24에서 기존 DAPO 방식(36.98%)보다 높은 38.13%의 정확도를 기록했다. 또한 AIME-25, AMC 등 다른 수학 벤치마크에서도 일관되게 성능이 향상되었으며, Minerva 데이터셋을 통한 일반화 성능 평가에서도 기존 SOTA 방법론들을 앞지르는 결과를 확인했다.
실무 활용
이미 학습된 추론 모델의 성능을 추가 비용 없이 즉각적으로 개선하거나, 새로운 추론 모델을 학습시킬 때 데이터 효율성을 극대화하는 데 활용할 수 있습니다.
- 수학 및 코딩 특화 LLM의 테스트 시점 성능 부스팅
- 강화학습(RLVR) 학습 시 적은 데이터로도 높은 추론 정확도 달성
- 모델 업데이트 시 추론에 핵심적인 '결정적 토큰' 식별 및 분석
- 추론 모델의 토큰 생성 확률 분포 최적화를 통한 응답 품질 개선
기술 상세
본 연구는 DAPO(Dynamic Sampling Policy Optimization)를 베이스라인으로 사용하며, RLVR 업데이트가 희소하게 발생하는 이유를 수학적으로 분석했다. DAPO 목적 함수의 그래디언트 L1-노름이 (1 - pi_theta) 항에 의해 타이트하게 바운드됨을 증명하여, 낮은 확률의 토큰이 그래디언트 업데이트를 주도한다는 점을 이론적으로 뒷받침했다.
Δ log p 분포가 이봉(Bimodal) 형태를 띠며, 양의 꼬리 부분에 위치한 토큰들이 주로 'combine', 'break', 'simplify'와 같은 명시적인 추론 행동이나 'wait', 'think'와 같은 논리적 전이 단어임을 워드 클라우드 분석을 통해 확인했다. 이는 RLVR이 모델에게 더 효과적인 사고 과정을 구축하도록 유도한다는 것을 시사한다.
한계점
외삽 기법을 사용하기 위해서는 기본 모델(Base)과 RL 모델 두 가지를 모두 메모리에 로드해야 하므로 계산 비용이 증가할 수 있다. 또한 외삽 강도(gamma)와 선택 임계값(tau)이라는 추가적인 하이퍼파라미터 튜닝이 필요하다는 한계가 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.