안락한 영역을 벗어나게 하는 넛지: RLVR를 위한 전략 주도형 탐색의 효율화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

RLVR의 핵심은 탐색의 질이다. naive 롤아웃 확장은 비용이 매우 크고, 정책이 이미 샘플링한 경로에만 개선이 가능하다. 본 연구는 Strategy Nudging으로 컨텍스트를 도입해 다양한 추론 모드를 강제 탐색하도록 하고, Inter-Intra Group Advantage와 디스틸레이션으로 발견된 유용한 전략을 기본 프롬프트 정책으로 전이시킴으로써 적은 롤아웃으로도 GRPO 대비 우수한 성능을 달성한다. 실험에서 8배 큰 롤아웃 예산을 사용한 GRPO를 능가하고, oracle 기반 프리픽스 방법보다도 우수한 성과를 보인다.

왜 중요한가

핵심 기여

Strategy Nudging으로 다양성 있는 탐색 유도

각 롤아웃에 Strategy-level context를 부여하고 context dropout을 도입해 입력 차원에서 다양한 추론 모드를 강제 탐색하게 한다. 이를 통해 동일한 예산으로도 서로 다른 해결 전략의 탐색 범위를 넓힌다.

Inter-Intra Group Advantage로 credit assignment 안정화

롤아웃들을 컨텍스트로 그룹화하고 그룹별 기저선과 전체 기저선을 사용해 현상적으로 일관된 이점(A_i)을 계산한다. 컨텍스트 간 편향을 줄이고, 같은 보상이라도 더 신뢰할 수 있는 컨텍스트의 성공에 더 큰 가치를 부여한다.

Distillation augmented RL로 지식 전이

context 조건부로 수집된 고-성능 롤아웃의 정책 변화를 base 프롬프트 정책으로 디스틸레이션한다. L_distill를 통해 고-이상적 행동을 정책에 반영하되 과도한 제약은 피한다.

실험적으로 8배 롤아웃 예산에서도 GRPO를 상회

Qwen3-4B-Instruct-2507와 Olmo-3-7B-Instruct-SFT에서 NUDGERL은 각각 평균 0.489, 0.285의 성능을 달성했고, GRPO는 롤아웃 예산을 증가시킬수록 한계에 도달하거나 악화되는 경향을 보였다.

핵심 아이디어 이해하기

출발점: RLVR은 샘플링된 트레이젝토리의 품질에 크게 좌우되며, 샘플링 확장을 무작정 늘리는 것은 계산 비용과 아직 탐색되지 않은 영역의 샘플 부족 문제를 해결하지 못한다. 해결 원리: 1) Strategy Nudging으로 입력 차원에서 다양한 전략-수준의 맥락을 추가해 모델이 서로 다른 추론 모드를 시도하도록 강제한다. 2) Inter-Intra Group Advantage로 context별 기여도와 글로벌 기여를 모두 고려한 크레딧 분배를 통해 컨텍스트 간 편향을 보정한다. 3) Distillation을 통해 context-conditioned 롤아웃에서 발견된 유용한 전략을 base 프롬프트 정책으로 전이시킨다. 결과적으로 샘플 구성은 다양해지면서도 학습 신호의 품질은 유지되며, 추론 시 컨텍스트 없이도 효과적인 전략이 재현된다.

방법론

전략-넛지: 각 Rollout마다 하나의 Strategy context를 샘플링한다. 컨텍스트 풀 C(x0)에서 c(i)을 Uniform로 샘플하고, pdrop에 따라 Dropout 마스크를 적용해 x^(i) = (x0, z(i))를 구성한다. y_i ~ π_theta(·|x^(i))를 샘플링한다. Inter-Intra Group Advantage: 롤아웃들을 z(i)로 그룹화하고, 각 그룹의 평균 보상 r̄_g와 전체 평균 r̄를 구한 후 Ai를 아래와 같이 정의한다. 이를 바탕으로 L_NUDGERL = L_RL(θ) + λ_distill L_distill으로 학습한다. Distillation: L_distill(θ) = - E_{y~πθ(·|x1)} [ Â log πθ(y|x0) ]로, 컨텍스트 조건부에서 높은 어드밴티지의 트레이젝토리를 base 프롬프트 정책으로 전달한다.

주요 결과

주요 벤치마크에서의 성능: Qwen3-4B-Instruct-2507에서 NUDGERL은 8-rollouts로 평균 0.489를 달성, GRPO의 32-rollouts(0.487)를 소폭 상회하고 64-rollouts(0.451) 대비 우수하다. Olmo-3-7B-Instruct-SFT에서도 NUDGERL은 0.285로 GRPO의 32-rollouts(0.281)보다 우수하다. 또한 POPE 기반 oracle-prefix 방법보다 일관되게 우수한 성능을 보였다. 학습 다이나믹스에서 Strategy Nudging은 학습 초기에 더 빠른 개선을 보여주며, k 증가에 따른 pass@k에서도 GRPO 대비 상향 곡선을 유지한다. 사례 연구에서 SHOELACE 공식 전략의 활용이 GRPO 대비 더 높은 정답률로 이어졌다.

기술 상세

아키텍처: RLVR에 Strategy Nudging을 적용하여 context-conditioned 롤아웃 생성. 수식적 제어: A_i 계산은 그룹 내 보상 차이와 컨텍스트 간 보상 차이를 함께 반영하도록 정의되며, λ ∈ [1,2]에서 일관된 순서를 보장한다. 학습 신호: L_RL(θ)과 L_distill(θ) 합으로 목표를 설정하며, distill은 컨텍스트로 발견된 고성능 경향을 base 프롬프트 정책으로 전달한다. 수식 구현의 핵심 포인트는 그룹-기반 평균 기대치와 컨텍스트 평균 간의 차이를 이용한 어드밴티지 계산, 그리고 컨텍스트 특징이 학습에 반영되도록 하는 distillation 신호의 가중치 조정이다.

한계점

고정된 컨텍스트 풀의 효과는 학습 진행에 따라 감소할 수 있다. 또한 Strategy Nudging의 컨텍스트 생성 비용은 offline에서 한 번만 수행되므로 재사용이 필요하지만, 정책 변화에 따라 컨텍스트의 효율성이 달라질 수 있다.

실무 활용

구현 비용이 낮은 Strategy Nudging 기반 탐색으로, 일반적인 RLVR 파이프라인에서 더 적은 롤아웃으로도 강력한 성능 향상을 얻을 수 있다. 컨텍스트-구동 탐색이 base 정책으로 쉽게 전이되며, privileged 정보 의존성을 줄인다.

수학 문제 풀이와 같이 명확한 verifiable reward가 있는 LLM 후학습에서 롤아웃 예산을 크게 늘리지 않고도 성능을 높임
정책-스케일링 대신 구조화된 탐색으로 계산 효율성을 개선하는 RLVR 응용
오라클 프리픽스 없이도 다중 방향의 추론 전략을 탐색해야 하는 문제에 적용
제한된 계산 자원에서의 대규모 언어 모델 추론 최적화

코드 공개 여부: 공개

코드 저장소 보기

키워드

RLVR(Verifiable rewards)GRPO(Group-Relative Policy Optimization)Strategy Nudging(전략 넛지)Inter-Intra Group AdvantageDistillation augmented RLcontext-conditioned explorationoracle supervision