무작위로 선택된 Few-shot 지시를 통한 검증 가능한 보상으로 강화학습 성능 향상

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

RLVR은 검증 가능한 보상을 활용해 추론 능력을 향상시키는 프레임워크이며, 샘플 효율성이 낮아 복잡한 문제에서 학습 신호를 얻기 어렵다. FEST는 128개의 Demonstration으로 RLVR을 크게 개선하며, supervised learning, on-policy learning, decaying weights를 결합해 과적합를 방지한다. 이로써 대규모 SFT 데이터 의존 없이도 강건한 성능 향상이 가능하다는 점이 주목된다.

왜 중요한가

RLVR은 검증 가능한 보상을 활용해 추론 능력을 향상시키는 프레임워크이며, 샘플 효율성이 낮아 복잡한 문제에서 학습 신호를 얻기 어렵다. FEST는 128개의 Demonstration으로 RLVR을 크게 개선하며, supervised learning, on-policy learning, decaying weights를 결합해 과적합를 방지한다. 이로써 대규모 SFT 데이터 의존 없이도 강건한 성능 향상이 가능하다는 점이 주목된다.

핵심 기여

Few-shot demonstration-guided RLVR 설계

FEST는 128개의 randomly selected SFT Demonstration으로 RLVR 성능을 크게 끌어올리는 Few-shot demonstration-guided RLVR 프레임워크이다.

세 가지 핵심 구성요소 도입

supervised learning 신호, on-policy 학습 신호, 그리고 decaying weight를 도입해 적은 양의 DE로도 효과적인 학습을 가능하게 한다.

semi-online DPO 도입

DE에서 y+를 선호 롤아웃으로, y−를 비선호 롤아웃으로 사용하는 semi-online DPO 손실을 도입하여 감독학습과 RL 신호를 결합한다.

FEST-GRPO를 통한 gradient mismatch 해결

토큰 수준 GRPO와 시퀀스 수준 DPO 간의 그래디언트 규모 차이를 해소하기 위해 FEST-GRPO를 제안하며, DPO의 LE를 GRPO 기반 손실로 대체한다.

핵심 아이디어 이해하기

단락 1: RLVR은 verifiable rewards를 이용해 문제 해결을 유도하는 RL 패러다임이다. 하지만 복잡한 수학/코딩 문제에서 샘플 효율성이 낮아 정확한 롤아웃을 얻기 어렵다. 이로 인해 RLVR의 학습 신호가 희박해지며 성능이 제한된다. 단순한 SFT 보강만으로는 커다란 비용이 들고 일반화에 한계가 있다. 단락 2: FEST는 소수의 SFT 데이터(DE)만으로도 학습 효과를 극대화하기 위해 세 가지 구성요소를 결합한다. 첫째, supervised learning 신호로 전문가 흐름을 전달하고, 둘째, on-policy 학습으로 자기 롤아웃을 평가해 노출 편향을 줄이며, 셋째, decaying weight로 초기에는 DE의 영향을 강조하되 후반에는 RLVR 신호(DI)의 비중을 높여 과적합을 방지한다. 단락 3: 이 조합은 세 가지 목표를 달성한다. 1) 데이터가 적은 상황에서도 학습 신호를 확장하고, 2) RLVR과 SFT 간의 갈등을 완화하며, 3) gradient의 규모 차이를 완화해 안정적인 공동 최적화를 가능하게 한다. 단락 4: FEST의 두 가지 구현으로 요약된다. DPO 기반 LE(LE: semi-online DPO)와 LI(토큰 수준 GRPO)로 구성된 목적함수 L = c·LE + LI를 통해, DE의 y+를 선호로, DE의 y−를 비선호로 삼아 학습한다. 이 구조는 학습 안정성과 일반화 성능을 높이고, 128샷에서도 SOTA 벤치마크를 능가하는 성능을 확보한다.

방법론

전체 학습 목표: L = c · LE + LI 로 정의한다. LE는 few-shot SFT 데이터 DE에서의 semi-online DPO 손실이며, y+를 선호 롤아웃으로, y−를 비선호 롤아웃으로 사용한다. LI는 대답-전용 데이터 DI에서 GRPO 손실을 적용한다.
LE의 작동 원리: r+ = log πθ(y+|x) / πref(y+|x), r− = log πθ(y−|x) / πref(y−|x) 이고, β는 스칼라 하이퍼파라미터다. LE의 그래디언트는 ∇θLE = −β E[ (r− − r+)에 대한 σ(β(r− − r+)) · ∇ log πθ(y+|x) − ∇ log πθ(y−|x) ] 이다. 이로써 supervised learning, on-policy training, decaying weight가 결합된다.
β의 적응 전략: 배치 내 롤아웃의 성공 여부에 따라 β를 다르게 설정한다(β1: 모든 y−가 실패, β2: 일부 성공, β3: 성공). 따라서 난이도가 다른 문제에 대해 학습 강도를 조절한다.
FEST-GRPO의 도입: DPO의 시퀀스-레벨 손실 LE를 GRPO의 토큰-레벨 손실 LI로 대체하여 gradient mismatch를 완화한다. LE 대신 GRPO 기반 손실을 사용함으로써 토큰 단위의 클리핑을 활용하고, DPO와 GRPO 간의 기하학적 차이를 제거한다.
구현 세부: DE에서 128개의 문제를 샘플하고 DI에서 128개를 사용, 8개의 롤아웃, 최대 길이 8192, 학습률은 1e-5에서 5e-6으로 코사인 스케줄링. baselines는 Pure RL, LUFFY, HPT, ReLIFT 등이다.

주요 결과

메인 벤치마크 결과: 평균 정확도(AIME25, AMC23, AIME24, MATH-500, Olympiad, Minerva)에서 FEST-DPO는 41.98±1.24, FEST-GRPO는 42.36±1.26으로, RL(기본) 대비 개선을 보인다. FEST-GRPO는 42.36으로 평균 최상위를 기록하며, RL-G의 40.55보다도 높다.
4.1 표의 상세 수치: FEST-GRPO가 평균 42.36↑, FEST-DPO가 41.98↑로 다른 baselines를 앞질렀다. 특히 6개 벤치에서 모두 강한 성능 차이를 보였다.
Ablation(4.4.1): 구성요소의 시너지가 중요하며, RL-G 단독이나 weight만으로의 조합은 성능 저하로 이어진다. 세 가지 구성요소를 모두 포함한 FEST-GRPO가 42.38±1.26으로 가장 높다.
확장 실험(4.2): 샷 수가 64~512까지 증가해도 FEST-GRPO는 안정적으로 성능을 유지하며, FEST-DPO는 더 많은 데이터에서 더 강하게 스케일링한다. 64샷에서도 견고한 성능을 보이고, 전체적으로 46K 데이터로 학습한 HPT와 비슷하거나 우수한 수준에 이른다.
OOD 일반화(4.4.2): MMLU-Pro에서 Pass@1이 FEST-DPO 38.68, FEST-GRPO 36.32로 RL 및 다른 baselines를 상회한다. 12k 문제 규모의 OOD에서도 일반화 성능이 우수하다.

기술 상세

L = c·LE + LI 형태의 목표 함수, LE는 semi-online DPO, LI는 GRPO를 사용한다. β의 적응식은 난이도별로 결정되며, FEST-GRPO는 DPO의 시퀀스-레벨 손실 LE를 GRPO의 토큰-레벨 손실 LI로 대체해 gradient mismatch를 해결한다. DE의 샘플링은 128개, DI의 샘플은 128개, 8-rollouts, 최대 8192 토큰, 학습률 1e-5→5e-6, 코사인 스케줄링, 토큰-레벨 클리핑은 GRPO의 A1/A2 구성요소를 활용한다.

키워드

RLVR(Verifiable Rewards)DPOGRPOFESTfew-shot SFTon-policy learningdecaying weight