핵심 요약
검증 가능한 보상 기반 강화학습(RLVR)은 LLM의 추론 능력을 높이는 핵심 기술이지만 막대한 연산 비용이 소요됩니다. 이 논문은 모델 파라미터의 변화 궤적을 비선형적으로 예측하여 중간 학습 단계를 건너뛰게 함으로써 성능 저하 없이 훈련 속도를 획기적으로 개선합니다.
왜 중요한가
검증 가능한 보상 기반 강화학습(RLVR)은 LLM의 추론 능력을 높이는 핵심 기술이지만 막대한 연산 비용이 소요됩니다. 이 논문은 모델 파라미터의 변화 궤적을 비선형적으로 예측하여 중간 학습 단계를 건너뛰게 함으로써 성능 저하 없이 훈련 속도를 획기적으로 개선합니다.
핵심 기여
RLVR 훈련 중 파라미터 궤적의 비선형성 발견
RLVR 과정에서 모델 파라미터 업데이트의 핵심인 Rank-1 Subspace가 선형적으로 진화하지 않음을 실험적으로 증명하고, 기존 선형 외삽법의 한계를 지적했다.
NExt(Nonlinear Extrapolation) 프레임워크 제안
LoRA 기반 훈련에서 추출한 저순위 파라미터 차이(Delta)를 비선형 예측 모델로 학습하여 미래의 모델 상태를 직접 예측하는 새로운 가속화 프레임워크를 설계했다.
연산 오버헤드 37.5% 절감 및 성능 유지
Qwen2.5 시리즈 모델 실험을 통해 기존 RLVR 대비 훈련 시간을 약 37.5% 단축하면서도 수학적 추론 벤치마크에서 동등하거나 더 우수한 성능을 달성했다.
핵심 아이디어 이해하기
강화학습 훈련은 수많은 반복 단계를 거쳐 모델 가중치(Weight)를 조금씩 업데이트하는 과정이다. 기존에는 이 업데이트 방향이 일정하다고 가정하고 선형적으로 미래 가중치를 예측(Extrapolation)하려 했으나, 실제 LLM의 복잡한 최적화 경로에서는 오차가 크게 발생한다.
NExt는 모델 전체 파라미터 대신 LoRA를 통해 압축된 저순위(Low-rank) 공간에서의 변화에 주목한다. 특히 훈련 초기 단계에서 발생하는 파라미터 변화량(Delta)들을 수집하여, 이들이 시간에 따라 어떻게 변하는지 그 '궤적' 자체를 딥러닝 모델(Predictor)로 학습한다.
학습된 예측 모델은 현재까지의 궤적 정보를 입력받아 수백 단계 뒤의 파라미터 상태를 비선형적으로 추론한다. 이를 통해 수천 번의 경사 하강법(Gradient Descent) 단계를 실제로 밟지 않고도 최적점에 가까운 가중치로 한 번에 도약할 수 있게 되어 전체 훈련 효율이 극대화된다.
관련 Figure

LoRA 훈련 시(점선) Full Fine-tuning(실선)보다 Rank-1 Subspace의 에너지 비율이 훨씬 높고 지속적으로 상승함을 보여준다. 이는 저순위 외삽 기법이 LoRA 환경에서 더 효과적일 수 있다는 이론적 근거를 제시한다.
훈련 단계에 따른 Attention 및 MLP 레이어의 Rank-1 Subspace 에너지 비율 변화 그래프이다.
방법론
NExt는 크게 세 단계로 구성된다. 첫째, LoRA 기반 RLVR을 소수 단계 수행하며 중간 체크포인트들을 저장한다. 둘째, 각 체크포인트 사이의 파라미터 차이인 Global Delta, Local Delta 등을 계산하고 SVD(Singular Value Decomposition)를 적용하여 Rank-1 Subspace(가장 지배적인 변화 방향)를 추출한다.
추출된 저순위 벡터들은 예측 모델(Predictor)의 학습 데이터로 사용된다. 예측 모델은 Encoder-Decoder 구조를 가지며, [이전 단계들의 변화량 벡터 입력 → MLP 레이어를 통한 비선형 연산 → 미래 단계의 변화량 벡터 출력] 과정을 거친다. 이때 L1 Loss를 사용하여 예측값과 실제 미래 파라미터 사이의 오차를 최소화하도록 학습한다.
마지막으로 'Predict-Extend' 패러다임을 적용한다. 학습된 예측 모델이 출력한 미래 변화량에 확장 계수 α를 곱하여 현재 파라미터에 더함으로써(W_new = W + α * Delta_predicted) 최종적인 외삽 모델을 생성한다. 이후 추가적인 RLVR 훈련을 소량 진행하여 성능을 미세 조정한다.
관련 Figure

LoRA 기반 RLVR에서 체크포인트를 수집하고, Rank-1 Subspace를 추출하여 예측 모델을 학습시킨 뒤, 최종적으로 미래 파라미터를 예측 및 확장하는 전체 과정을 시각화했다. 이 구조는 방법론의 핵심인 '추출-예측-확장' 단계를 명확히 설명한다.
NExt 프레임워크의 전체 워크플로우를 보여주는 다이어그램이다.
주요 결과
Qwen2.5-1.5B, 3B, 7B, 14B 모델을 대상으로 AIME, AMC, Minerva 등 수학 추론 벤치마크에서 실험을 진행했다. NExt는 기존 GRPO 알고리즘 대비 약 37.5% 적은 훈련 단계(400단계 대비 250단계)만으로도 더 높은 평균 정확도를 기록했다. 예를 들어 Qwen2.5-7B 모델에서 NExt는 24.2%의 정확도를 기록하여 일반 GRPO(23.1%)보다 우수한 효율성을 보였다.
효율성 지표인 ICER(Incremental Cost-Effectiveness Ratio) 분석 결과, NExt는 기존 선형 외삽 기법인 AlphaRL이나 RL-Extra보다 현저히 낮은 수치를 기록하여 자원 대비 성능 향상 폭이 가장 큼을 입증했다. 또한 GPQA 및 MMLU-Pro와 같은 일반 도메인 지식 평가에서도 성능 저하 없이 훈련 가속화가 가능함을 확인했다.
관련 Figure

1.5B 및 3B 모델 모두에서 NExt가 GRPO 대비 약 37.5%의 시간 절감을 달성함을 수치로 보여준다. 추가된 SVD 및 예측 모델 학습 시간은 전체 비중에서 매우 미미함을 확인할 수 있다.
NExt와 일반 GRPO의 서버 사용 시간(GPU Hours)을 비교한 막대 그래프이다.
기술 상세
본 연구는 RLVR 훈련 중 파라미터 업데이트 행렬 ΔW의 에너지 비율(Energy Ratio)을 분석하여, 훈련이 진행될수록 Rank-1 Subspace의 지배력이 강화된다는 점을 수치적으로 보였다. 특히 LoRA를 사용할 경우 전체 파라미터 튜닝보다 Rank-1 성분이 더 명확하게 추출되어 외삽에 유리한 구조가 형성됨을 밝혔다.
예측 모델은 MLP 기반의 경량 아키텍처를 채택하여 SVD 연산 및 예측 과정에서 발생하는 추가 연산 시간이 전체 훈련 시간의 극히 일부(약 1% 미만)에 불과하도록 설계했다. 또한 서로 다른 차원의 특이 벡터(Singular Vectors)들을 병렬로 처리하기 위해 벡터 결합(Concatenation) 및 정규화(Normalization) 전략을 사용하여 훈련 안정성을 높였다.
한계점
본 논문은 파라미터 업데이트의 비선형성을 모델링했으나, 외삽 계수 α의 선택에 따라 성능 변동성이 존재할 수 있음을 언급했다. 또한 현재는 Rank-1 Subspace에 집중하고 있어, 더 높은 순위(Higher-rank)의 정보를 활용할 경우의 이득과 비용 사이의 트레이드오프에 대한 추가 연구가 필요하다.
실무 활용
LLM의 사후 학습(Post-training) 단계에서 강화학습 비용을 줄이고자 하는 기업이나 연구소에 즉시 적용 가능한 기술이다. 특히 수학, 코딩 등 정답 확인이 가능한(Verifiable Rewards) 도메인의 모델 고도화에 효과적이다.
- 제한된 GPU 자원으로 대규모 추론 모델(Reasoning Model)을 훈련해야 하는 경우
- RLVR 알고리즘(GRPO, RLOO 등)의 훈련 속도를 성능 손실 없이 개선하고자 할 때
- 다양한 체크포인트 데이터를 활용해 최적의 모델 파라미터를 빠르게 탐색하는 워크플로우 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.