TL;DR
RLVR의 핵심은 탐색의 질이다. naive 롤아웃 확장은 비용이 매우 크고, 정책이 이미 샘플링한 경로에만 개선이 가능하다. 본 연구는 Strategy Nudging으로 컨텍스트를 도입해 다양한 추론 모드를 강제 탐색하도록 하고, Inter-Intra Group Advantage와 디스틸레이션으로 발견된 유용한 전략을 기본 프롬프트 정책으로 전이시킴으로써 적은 롤아웃으로도 GRPO 대비 우수한 성능을 달성한다. 실험에서 8배 큰 롤아웃 예산을 사용한 GRPO를 능가하고, oracle 기반 프리픽스 방법보다도 우수한 성과를 보인다.
왜 중요한가
RLVR의 핵심은 탐색의 질이다. naive 롤아웃 확장은 비용이 매우 크고, 정책이 이미 샘플링한 경로에만 개선이 가능하다. 본 연구는 Strategy Nudging으로 컨텍스트를 도입해 다양한 추론 모드를 강제 탐색하도록 하고, Inter-Intra Group Advantage와 디스틸레이션으로 발견된 유용한 전략을 기본 프롬프트 정책으로 전이시킴으로써 적은 롤아웃으로도 GRPO 대비 우수한 성능을 달성한다. 실험에서 8배 큰 롤아웃 예산을 사용한 GRPO를 능가하고, oracle 기반 프리픽스 방법보다도 우수한 성과를 보인다.
핵심 기여
Strategy Nudging으로 다양성 있는 탐색 유도
각 롤아웃에 Strategy-level context를 부여하고 context dropout을 도입해 입력 차원에서 다양한 추론 모드를 강제 탐색하게 한다. 이를 통해 동일한 예산으로도 서로 다른 해결 전략의 탐색 범위를 넓힌다.
Inter-Intra Group Advantage로 credit assignment 안정화
롤아웃들을 컨텍스트로 그룹화하고 그룹별 기저선과 전체 기저선을 사용해 현상적으로 일관된 이점(A_i)을 계산한다. 컨텍스트 간 편향을 줄이고, 같은 보상이라도 더 신뢰할 수 있는 컨텍스트의 성공에 더 큰 가치를 부여한다.
Distillation augmented RL로 지식 전이
context 조건부로 수집된 고-성능 롤아웃의 정책 변화를 base 프롬프트 정책으로 디스틸레이션한다. L_distill를 통해 고-이상적 행동을 정책에 반영하되 과도한 제약은 피한다.
실험적으로 8배 롤아웃 예산에서도 GRPO를 상회
Qwen3-4B-Instruct-2507와 Olmo-3-7B-Instruct-SFT에서 NUDGERL은 각각 평균 0.489, 0.285의 성능을 달성했고, GRPO는 롤아웃 예산을 증가시킬수록 한계에 도달하거나 악화되는 경향을 보였다.
핵심 아이디어 이해하기
출발점: RLVR은 샘플링된 트레이젝토리의 품질에 크게 좌우되며, 샘플링 확장을 무작정 늘리는 것은 계산 비용과 아직 탐색되지 않은 영역의 샘플 부족 문제를 해결하지 못한다. 해결 원리: 1) Strategy Nudging으로 입력 차원에서 다양한 전략-수준의 맥락을 추가해 모델이 서로 다른 추론 모드를 시도하도록 강제한다. 2) Inter-Intra Group Advantage로 context별 기여도와 글로벌 기여를 모두 고려한 크레딧 분배를 통해 컨텍스트 간 편향을 보정한다. 3) Distillation을 통해 context-conditioned 롤아웃에서 발견된 유용한 전략을 base 프롬프트 정책으로 전이시킨다. 결과적으로 샘플 구성은 다양해지면서도 학습 신호의 품질은 유지되며, 추론 시 컨텍스트 없이도 효과적인 전략이 재현된다.
관련 Figure

결론적으로, Strategy Nudging이 단일 프롬프트 대비 다양한 추론 모드를 확보하는 데 기여한다는 것을 시각적으로 뒷받침한다.
Figure 1은 Naive Sampling과 Strategy Nudging의 비교, Strategy Nudging이 입력 차원에서 다양성 있는 추론 모드를 유도하는 과정을 다이어그램으로 보여준다.
방법론
전략-넛지: 각 Rollout마다 하나의 Strategy context를 샘플링한다. 컨텍스트 풀 C(x0)에서 c(i)을 Uniform로 샘플하고, pdrop에 따라 Dropout 마스크를 적용해 x^(i) = (x0, z(i))를 구성한다. y_i ~ π_theta(·|x^(i))를 샘플링한다. Inter-Intra Group Advantage: 롤아웃들을 z(i)로 그룹화하고, 각 그룹의 평균 보상 r̄_g와 전체 평균 r̄를 구한 후 Ai를 아래와 같이 정의한다. 이를 바탕으로 L_NUDGERL = L_RL(θ) + λ_distill L_distill으로 학습한다. Distillation: L_distill(θ) = - E_{y~πθ(·|x1)} [ Â log πθ(y|x0) ]로, 컨텍스트 조건부에서 높은 어드밴티지의 트레이젝토리를 base 프롬프트 정책으로 전달한다.
관련 Figure

context 간의 credit assignment와 트레이젝토리의 지식 전이를 시각적으로 설명하며, 방법론의 핵심 구성요소를 보강한다.
Figure 2는 Inter-Intra Group Advantage와 Self-distillation의 학습 메커니즘을 시각화한다.
주요 결과
주요 벤치마크에서의 성능: Qwen3-4B-Instruct-2507에서 NUDGERL은 8-rollouts로 평균 0.489를 달성, GRPO의 32-rollouts(0.487)를 소폭 상회하고 64-rollouts(0.451) 대비 우수하다. Olmo-3-7B-Instruct-SFT에서도 NUDGERL은 0.285로 GRPO의 32-rollouts(0.281)보다 우수하다. 또한 POPE 기반 oracle-prefix 방법보다 일관되게 우수한 성능을 보였다. 학습 다이나믹스에서 Strategy Nudging은 학습 초기에 더 빠른 개선을 보여주며, k 증가에 따른 pass@k에서도 GRPO 대비 상향 곡선을 유지한다. 사례 연구에서 SHOELACE 공식 전략의 활용이 GRPO 대비 더 높은 정답률로 이어졌다.
관련 Figure

NUDGERL의 학습 진행에서 GRPO 대비 빠른 성능 향상과 안정성을 보여준다.
Figure 3은 학습 다이나믹스 및 평가 성능의 추세를 나타내는 그래프들이다.

실시간 전략 학습의 효과와 내부화된 테스트-타임 전략의 관계를 보여주며, 제시된 사례에서 SHOELACE 전략의 활용이 효과적임을 시사한다.
Figure 4는 테스트-시점에서의 전략적 학습이 어떻게 내부적으로 작동하는지에 대한 다이어그램이다.
기술 상세
아키텍처: RLVR에 Strategy Nudging을 적용하여 context-conditioned 롤아웃 생성. 수식적 제어: A_i 계산은 그룹 내 보상 차이와 컨텍스트 간 보상 차이를 함께 반영하도록 정의되며, λ ∈ [1,2]에서 일관된 순서를 보장한다. 학습 신호: L_RL(θ)과 L_distill(θ) 합으로 목표를 설정하며, distill은 컨텍스트로 발견된 고성능 경향을 base 프롬프트 정책으로 전달한다. 수식 구현의 핵심 포인트는 그룹-기반 평균 기대치와 컨텍스트 평균 간의 차이를 이용한 어드밴티지 계산, 그리고 컨텍스트 특징이 학습에 반영되도록 하는 distillation 신호의 가중치 조정이다.
한계점
고정된 컨텍스트 풀의 효과는 학습 진행에 따라 감소할 수 있다. 또한 Strategy Nudging의 컨텍스트 생성 비용은 offline에서 한 번만 수행되므로 재사용이 필요하지만, 정책 변화에 따라 컨텍스트의 효율성이 달라질 수 있다.
실무 활용
구현 비용이 낮은 Strategy Nudging 기반 탐색으로, 일반적인 RLVR 파이프라인에서 더 적은 롤아웃으로도 강력한 성능 향상을 얻을 수 있다. 컨텍스트-구동 탐색이 base 정책으로 쉽게 전이되며, privileged 정보 의존성을 줄인다.
- 수학 문제 풀이와 같이 명확한 verifiable reward가 있는 LLM 후학습에서 롤아웃 예산을 크게 늘리지 않고도 성능을 높임
- 정책-스케일링 대신 구조화된 탐색으로 계산 효율성을 개선하는 RLVR 응용
- 오라클 프리픽스 없이도 다중 방향의 추론 전략을 탐색해야 하는 문제에 적용
- 제한된 계산 자원에서의 대규모 언어 모델 추론 최적화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.