최소한의 RLVR 훈련으로 LLM의 외삽을 달성하는 방법: Rank-1 궤적 기반

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

RLVR은 대규모 언어모델의 추론 능력을 개선하는 핵심 기법이지만 계산 비용이 큼. 이 논문은 RLVR 업데이트가 매우 저랭크이며 대부분의 개선이 rank-1 구성요소에 의해 설명될 수 있음을 보인다. 이로써 초기 관찰 구간을 바탕으로 앞으로의 체크포인트를 예측하는 간단하고 계산 효율적인 RELEX를 제안하고, 최소 15–20%의 RLVR 학습 비용으로도 전체 성능에 근접하거나 개선된 결과를 얻을 수 있음을 보인다. 또한 rank-1 서브스페이스를 통한 투영이 노이즈를 제거하는 “스펙트럴 denoising” 효과를 갖는다는 점을 제시한다.

왜 중요한가

핵심 기여

RLVR 업데이트의 저랭크 특성 발견

RLVR weight deltas가 텐서당 단일 지배 방향(rank-1)으로 거의 모두 설명되며, 각 텐서의 1위 방향 벡터(v1)로의 투영이 성능 개선의 주된 구성요소를 차지한다.

RELEX 제안: 학습 없이 체크포인트 외삽

첫 Tcut 구간에서 rank-1 서브스페이스를 SVD로 추정하고, 각 텐서의 rank-1 계수 ct를 선형 회귀로 외삽하여 목표 단계의 체크포인트를 예측한다.

실험적 검증: 3개 모델에서 RLVR 대비 비용 15–20%로 성능 근접/향상

Qwen2.5-Math-1.5B, Qwen3-4B-Base, Qwen3-8B-Base에서 RELEX가 MATH에서의 내재 성능 및 다수의 OOD 벤치마크에서 RLVR과 비슷하거나 더 나은 결과를 달성한다.

스펙트럴 denoising 효과

Rank-1 투영은 노이즈성 방향의 영향을 줄이고, 안정적인 신호만 남겨 extrapolation의 정확도를 높인다.

핵심 아이디어 이해하기

단계 1: RLVR 훈련 궤적을 각 텐서별 delta θt를 수집하고, 각 텐서를 차원 축소하지 않은 채로 M(ℓ) = [flatten(∆θt)]의 형태로 쌓아 두고 SVD를 수행한다. 단일(상위) 특이벡터 v1을 얻고, ct = ⟨flatten(∆θt), v1⟩ 형태로 rank-1 계수 시퀀스를 얻는다. 단계 2: ct의 시계열을 선형 모델 c(t) = a t + b로 맞춰, 대상 시점 T에서 cT̂를 계산한다. 단계 3: 예측 체크포인트는 θ0 + cT̂ · v1으로 재구성된다. 이 방식은 raw weight space보다 SVD 서브스페이스에서 노이즈를 제거하고, rank-1 계수의 선형성으로 extrapolation을 가능하게 한다.

방법론

Algorithm 2 RELEX: RLVR Extrapolation의 핵심 흐름은 1) Rank-1 서브스페이스 추정: 각 텐서에 대해 ∆θt를 모아 M(ℓ)으로 만들고 SVD를 통해 v1을 얻는다. 2) 선형 계수 외삽: c(ℓ)1 = [flatten(∆θt)·v1]를 모아 선형 회귀로 a(ℓ), b(ℓ)를 구하고, T에서 ĉ(ℓ)T = a(ℓ)T + b(ℓ)로 매끈한 외삽을 수행한다. 3) 체크포인트 예측: ˆθT = θ0 + ĉT · v1을 구성한다. 구현상 각 텐서에 대해 M(ℓ)에서 Gram 행렬 G(ℓ) = M(ℓ)M(ℓ)⊤를 이용해 SVD를 수행하고, 고차원 벡터 대신 저차원 정보로 추정한다. 이 과정은 학습 없이도 실행 가능하며, Tcut 내부에서만 SVD를 수행한다."

주요 결과

주요 결과는 아래와 같음: (i) Rank-1 재구성은 RLVR 체크포인트를 거의 완벽히 재현하며 MATH에서 기존 RLVR의 성능을 유지한다. (ii) RELEX는 15–20%의 RLVR 학습 비용으로도 RLVR과 비슷하거나 더 나은 성능을 달성하며 I/O 및 OOD 벤치마크에서도 견고하다. (iii) Higher-rank 추가가 성능 향상에 기여하지 않으며, Linear 추정이 가장 안정적이다.

기술 상세

RELEX의 핵심은 한 텐서당 전체 trajectory를 단일 rank-1 방향으로 요약하는 것과, 이 방향에 대한 scalar coefficient ct의 근사치를 선형 함수로 추정하는 것이다. Step 1에서 각 텐서의 Δθt를 벡터화하여 행렬 M(ℓ)로 구성하고, M(ℓ) = U Σ V⊤의 SVD를 수행해 V의 상위 벡터 v1을 취한다. Step 2에서 ct = flatten(∆θt)·v1을 계산해(각 t에 대해) c(t)의 선형 회귀를 수행한 뒤, T에 대해 ĉT을 얻는다. Step 3에서 ˆθT = θ0 + ĉT v1으로 재구성한다. 이때 Gram 행렬 기반의 저차원 근사로 대량의 텐서에 대해 효율적으로 수행하며, SVD는 Tcut 차원에서만 수행되어 계산 비용이 낮다. RELEX의 추정은 학습 파라미터를 필요로 하지 않으며, 관찰 구간 내에서만 SVD를 수행해 추정한다.

한계점

본 연구는 GRPO를 이용한 수학적 추론 문제에 대해 Qwen 계열의 세 모델에서 실험되었으며, PPO 등 다른 RL 알고리즘이나 다른 태스크, 다른 모델 계열에서의 저랭크 구조 유무는 아직 열려 있다. 또한 rank-1 설계가 모든 모델 및 태스크에 일반화될지 여부는 모델별로 적응적 차원이 필요할 수 있다.

실무 활용

RELEX는 RLVR의 학습 없이도 초기 몇 프로의 관찰만으로 미래 체크포인트를 추정할 수 있어, 모델 개발 파이프라인에서 계산 비용을 크게 줄이고 빠른 피드백 루프를 제공한다.

RLVR 학습 일정의 전략적 계획 수립
신규 모델/아키텍처의 사전 평가를 위한 신속한 외삽

코드 공개 여부: 공개

코드 저장소 보기

키워드

RLVRrank-1SVDextrapolationlow-rankdenoisingRELEXGRPO

용어 해설

RLVR: — RLVR은 Reinforcement Learning with Verifiable Rewards의 약자로, 수학적으로 검증 가능한 보상을 사용하여 LLM의 추론 능력을 강화하는 강화학습 파이프라인이다.
Rank-1: — 딥러닝 파라미터 업데이트에서 각 텐서가 차지하는 주된 변화 방향을 의미하는 단일 방향성(rank-1)이다. 이 방향으로의 투영이 주요 업데이트를 설명한다.
SVD: — Singular Value Decomposition의 약자로, 행렬을 직교 기저의 곱으로 분해하여 주성분과 분해 계수의 구조를 파악하는 기법이다.
low-rank trajectories: — RLVR 학습 중 파라미터 업데이트가 저랭크 서브스페이스에 주로 몰려 있다는 관찰로, 이를 활용해 예측 및 외삽을 가능하게 한다.
denoising: — Rank-1 투영을 통해 불확실한 노이즈를 제거하고 안정적인 신호만 남기는 효과를 말한다.