TL;DR
RLVR은 검증 가능한 보상을 활용해 추론 능력을 향상시키는 프레임워크이며, 샘플 효율성이 낮아 복잡한 문제에서 학습 신호를 얻기 어렵다. FEST는 128개의 Demonstration으로 RLVR을 크게 개선하며, supervised learning, on-policy learning, decaying weights를 결합해 과적합를 방지한다. 이로써 대규모 SFT 데이터 의존 없이도 강건한 성능 향상이 가능하다는 점이 주목된다.
왜 중요한가
RLVR은 검증 가능한 보상을 활용해 추론 능력을 향상시키는 프레임워크이며, 샘플 효율성이 낮아 복잡한 문제에서 학습 신호를 얻기 어렵다. FEST는 128개의 Demonstration으로 RLVR을 크게 개선하며, supervised learning, on-policy learning, decaying weights를 결합해 과적합를 방지한다. 이로써 대규모 SFT 데이터 의존 없이도 강건한 성능 향상이 가능하다는 점이 주목된다.
핵심 기여
Few-shot demonstration-guided RLVR 설계
FEST는 128개의 randomly selected SFT Demonstration으로 RLVR 성능을 크게 끌어올리는 Few-shot demonstration-guided RLVR 프레임워크이다.
세 가지 핵심 구성요소 도입
supervised learning 신호, on-policy 학습 신호, 그리고 decaying weight를 도입해 적은 양의 DE로도 효과적인 학습을 가능하게 한다.
semi-online DPO 도입
DE에서 y+를 선호 롤아웃으로, y−를 비선호 롤아웃으로 사용하는 semi-online DPO 손실을 도입하여 감독학습과 RL 신호를 결합한다.
FEST-GRPO를 통한 gradient mismatch 해결
토큰 수준 GRPO와 시퀀스 수준 DPO 간의 그래디언트 규모 차이를 해소하기 위해 FEST-GRPO를 제안하며, DPO의 LE를 GRPO 기반 손실로 대체한다.
핵심 아이디어 이해하기
단락 1: RLVR은 verifiable rewards를 이용해 문제 해결을 유도하는 RL 패러다임이다. 하지만 복잡한 수학/코딩 문제에서 샘플 효율성이 낮아 정확한 롤아웃을 얻기 어렵다. 이로 인해 RLVR의 학습 신호가 희박해지며 성능이 제한된다. 단순한 SFT 보강만으로는 커다란 비용이 들고 일반화에 한계가 있다. 단락 2: FEST는 소수의 SFT 데이터(DE)만으로도 학습 효과를 극대화하기 위해 세 가지 구성요소를 결합한다. 첫째, supervised learning 신호로 전문가 흐름을 전달하고, 둘째, on-policy 학습으로 자기 롤아웃을 평가해 노출 편향을 줄이며, 셋째, decaying weight로 초기에는 DE의 영향을 강조하되 후반에는 RLVR 신호(DI)의 비중을 높여 과적합을 방지한다. 단락 3: 이 조합은 세 가지 목표를 달성한다. 1) 데이터가 적은 상황에서도 학습 신호를 확장하고, 2) RLVR과 SFT 간의 갈등을 완화하며, 3) gradient의 규모 차이를 완화해 안정적인 공동 최적화를 가능하게 한다. 단락 4: FEST의 두 가지 구현으로 요약된다. DPO 기반 LE(LE: semi-online DPO)와 LI(토큰 수준 GRPO)로 구성된 목적함수 L = c·LE + LI를 통해, DE의 y+를 선호로, DE의 y−를 비선호로 삼아 학습한다. 이 구조는 학습 안정성과 일반화 성능을 높이고, 128샷에서도 SOTA 벤치마크를 능가하는 성능을 확보한다.
방법론
- 전체 학습 목표: L = c · LE + LI 로 정의한다. LE는 few-shot SFT 데이터 DE에서의 semi-online DPO 손실이며, y+를 선호 롤아웃으로, y−를 비선호 롤아웃으로 사용한다. LI는 대답-전용 데이터 DI에서 GRPO 손실을 적용한다.
- LE의 작동 원리: r+ = log πθ(y+|x) / πref(y+|x), r− = log πθ(y−|x) / πref(y−|x) 이고, β는 스칼라 하이퍼파라미터다. LE의 그래디언트는 ∇θLE = −β E[ (r− − r+)에 대한 σ(β(r− − r+)) · ∇ log πθ(y+|x) − ∇ log πθ(y−|x) ] 이다. 이로써 supervised learning, on-policy training, decaying weight가 결합된다.
- β의 적응 전략: 배치 내 롤아웃의 성공 여부에 따라 β를 다르게 설정한다(β1: 모든 y−가 실패, β2: 일부 성공, β3: 성공). 따라서 난이도가 다른 문제에 대해 학습 강도를 조절한다.
- FEST-GRPO의 도입: DPO의 시퀀스-레벨 손실 LE를 GRPO의 토큰-레벨 손실 LI로 대체하여 gradient mismatch를 완화한다. LE 대신 GRPO 기반 손실을 사용함으로써 토큰 단위의 클리핑을 활용하고, DPO와 GRPO 간의 기하학적 차이를 제거한다.
- 구현 세부: DE에서 128개의 문제를 샘플하고 DI에서 128개를 사용, 8개의 롤아웃, 최대 길이 8192, 학습률은 1e-5에서 5e-6으로 코사인 스케줄링. baselines는 Pure RL, LUFFY, HPT, ReLIFT 등이다.
관련 Figure

세 가지 핵심 구성요소의 흐름과 데이터 흐름을 직관적으로 제시해 FEST의 작동 원리를 직접 보조한다. 또한 학습 파이프라인의 연결고리를 이해하는 데 중요하다.
FEST의 overall pipeline을 시각화한 다이어그램으로, No On-Demand Data, Supervised Learning, On-Policy Learning, Decaying Weight, GRPO와 DPO의 결합 구조를 보여준다

LE와 LI의 상호 작용이 RLVR 학습에 어떻게 기여하는지 시각적으로 보여준다. 방법론 설명 보강에 직접적이다.
DPO와 GRPO의 semi-online 학습 구조를 보여주는 그림으로, DE-LE와 DI-LI의 관계를 시각화한다

DPO와 GRPO의 그래디언트 규모 차이가 큼을 확인하고, FEST-GRPO가 이 불일치를 완화한다고 설명하는 근거를 제공한다.
DPO 대비 GRPO의 그래디언트 크기 차이를 시각화한 그래프(gradient norm)
주요 결과
- 메인 벤치마크 결과: 평균 정확도(AIME25, AMC23, AIME24, MATH-500, Olympiad, Minerva)에서 FEST-DPO는 41.98±1.24, FEST-GRPO는 42.36±1.26으로, RL(기본) 대비 개선을 보인다. FEST-GRPO는 42.36으로 평균 최상위를 기록하며, RL-G의 40.55보다도 높다.
- 4.1 표의 상세 수치: FEST-GRPO가 평균 42.36↑, FEST-DPO가 41.98↑로 다른 baselines를 앞질렀다. 특히 6개 벤치에서 모두 강한 성능 차이를 보였다.
- Ablation(4.4.1): 구성요소의 시너지가 중요하며, RL-G 단독이나 weight만으로의 조합은 성능 저하로 이어진다. 세 가지 구성요소를 모두 포함한 FEST-GRPO가 42.38±1.26으로 가장 높다.
- 확장 실험(4.2): 샷 수가 64~512까지 증가해도 FEST-GRPO는 안정적으로 성능을 유지하며, FEST-DPO는 더 많은 데이터에서 더 강하게 스케일링한다. 64샷에서도 견고한 성능을 보이고, 전체적으로 46K 데이터로 학습한 HPT와 비슷하거나 우수한 수준에 이른다.
- OOD 일반화(4.4.2): MMLU-Pro에서 Pass@1이 FEST-DPO 38.68, FEST-GRPO 36.32로 RL 및 다른 baselines를 상회한다. 12k 문제 규모의 OOD에서도 일반화 성능이 우수하다.
관련 Figure

샷 수 확장에 따른 FEST의 확장성을 근거로, 128-shot 조건에서의 실험이 신뢰할 만하다는 점을 시사한다.
샷 수에 따른 Avg@8 성능 그래프(64/128/256/512)와 base-line 대비 FEST의 안정성 비교

트레이닝 과정에서 DE의 보상과 DI의 성능이 함께 상승하는 경향을 보여주며, 파라미터 β의 최적 범위를 지지한다.
DE와 DI에 대한 Reward 변화 및 Pass@1의 시간에 따른 추적 그래프

다른 DE 설정에서도 FEST의 개선 성능이 유지됨을 시사하고, DE의 난이도 차이가 결과에 영향을 미친다는 점을 보인다.
LIMOv2-8192 실험의 학습 곡선: DI/DE 및 테스트 세트의 성능 곡선

학습 과정에서 FEST의 강건한 상승 경로를 시각화하며, SFT와 RL의 혼합이 학습곡선에 미치는 영향을 보강한다.
DE의 Reward 곡선과 Pass@1의 상승 추세를 시간에 따라 보여주는 스크린샷
기술 상세
L = c·LE + LI 형태의 목표 함수, LE는 semi-online DPO, LI는 GRPO를 사용한다. β의 적응식은 난이도별로 결정되며, FEST-GRPO는 DPO의 시퀀스-레벨 손실 LE를 GRPO의 토큰-레벨 손실 LI로 대체해 gradient mismatch를 해결한다. DE의 샘플링은 128개, DI의 샘플은 128개, 8-rollouts, 최대 8192 토큰, 학습률 1e-5→5e-6, 코사인 스케줄링, 토큰-레벨 클리핑은 GRPO의 A1/A2 구성요소를 활용한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.