실패로부터 학습하기: Verifiable Rewards를 활용한 Correction-Oriented Policy Optimization(CIPO)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

RLVR의 보상 신호는 희소하고 이진적이라 크레딧 할당이 불분명하다. CIPO는 실패를 교정 지향 감독으로 전환해 학습 방향성을 강화하고, 모델이 자신의 오류를 수정하는 능력을 키운다. 11개 벤치마크에서 일관된 추론 및 교정 성능 향상과 pass@K 증가를 보고한다.

왜 중요한가

RLVR의 보상 신호는 희소하고 이진적이라 크레딧 할당이 불분명하다. CIPO는 실패를 교정 지향 감독으로 전환해 학습 방향성을 강화하고, 모델이 자신의 오류를 수정하는 능력을 키운다. 11개 벤치마크에서 일관된 추론 및 교정 성능 향상과 pass@K 증가를 보고한다.

핵심 기여

Failure-to-correction learning signal

실패를 단순한 부정 신호가 아니라 교정 학습의 근거로 바꿔 학습 신호의 방향성을 제공한다.

Two-stream RLVR extension (base + correction)

Base stream의 on-policy 롤아웃과 Correction stream의 교정 롤아웃을 함께 최적화한다.

Adaptive replay ratio + risk-averse shaping

적응형 replay 비율과 비대칭 보상 설계로 학습 안정성과 성능 향상을 동시에 달성한다.

Difficulty-aware trajectory preference

중간 난이도 프롬프트를 재생 우선순위에 두어 학습 효율을 높인다.

Empirical validation across 11 benchmarks

수학 및 코드 생성 벤치마크에서 GRPO 대비 일관된 개선과 pass@K의 강화가 관찰된다.

핵심 아이디어 이해하기

기초: RLVR은 verifiable rewards를 통해 강화학습 시퀀스 학습을 수행한다. 보상 신호가 이진적이고 희소하기 때문에 실패 롤아웃은 불완전한 학습 신호로 남는다. 이 문제를 CIPO가 해결한다: 실패 샘플에서 원래 프롬프트와 모델의 오답 출력을 conditioning하여 교정 후보를 샘플링하고, 이를 통해 실패 모드 간의 거리를 따라가며 구체적인 방향성을 가진 학습 신호를 제공한다. 둘 사이 차이점은 (i) 교정 샘플이 학습 신호를 밀도 있게 만들어 gradient의 방향성을 강화하고, (ii) 모델의 자체 오류 수정 능력을 강화해 추론 및 디버깅 시나리오에서도 효과가 나타난다는 점이다. 실험적으로 11개 벤치마크에서 CIPO가 GRPO 대비 일관된 개선을 보였고, pass@K 지표의 상승은 내재적 추론 능력의 확장을 시사한다.

방법론

기본 아이디어: 두 흐름(base rollouts, correction rollouts)을 사용해 정책을 업데이트한다. 각 프롬프트 x에 대해 πθ가 y를 생성하고 R(x, y)로 보상을 받으며, correction 롤아웃은 xrep = Concat(x, y) 형태로 구성된 프롬프트를 바탕으로 y′를 샘플링한다. JCIPO(θ) = E_{x∼D,y∈Bbase}[A(i) log πθ(y|x)] + λ E_{(x, yc, rc)∈Xrec}[A′(i) log πθ(y′|x, yc)]로 두 흐름을 함께 최적화한다.

주요 결과

메인 벤치마크: 수학 문제 해결에서 Avg 64.38%로 GRPO 대비 4.55% 포인트 향상. 코드 생성 벤치에서 평균도 개선된다. 시나리오별로 AIME24/25, AMC23, MATH500 등에서 상향이 확인된다. - 패스@K: 수학 task에서 pass@32가 약 86.67% 등으로 개선되었고, 코드 벤치에서도 pass@8의 성능이 상승했다. - Ablation: on-policy replay 제거 시 성능 저하가 나타나며, 위험 회피형 보상 설계 제거 시 전반적으로 가장 큰 하락이 발생한다. Difficulty-aware 제거 시 학습 효율이 저하된다. - 일반화: 내재적 교정 능력이 향상되어 out-of-domain에서도 교정/ critiques 능력이 향상된다. - 발전성: 동일 예산에서 GRPO 대비 4%대 추가 이점으로 알고리즘 설계가 성능 향상의 주된 원인임이 확인된다.

기술 상세

A. 아키텍처: 두 데이터 스트림(Base, Correction). Correction 롤아웃은 x′ = AUGMENT(x, yc)로 구성된 프롬프트에서 y′을 샘플링한다. B. 핵심 메커니즘: Ai = (ri − μr)/σr로 그룹 내 이점을 계산하고, Correction 샘플의 보상은 Rrisk(x, y, y′) = R(x, y′) − λrisk·I[R(x, y)=1 ∧ R(x, y′)=0]로 정의한다. 이때 λrisk은 리스크 회피 파라미터다. C. 구현 차별점: 기존 GRPO는 실패를 동일하게 부정 신호로 처리하지만, CIPO는 실패를 근거 있는 교정 방향으로 바꾼다. D. 학습 세부: RolloutReplay는 중간 난이도 프롬프트를 우선 선택하고, N+/N− 비율로 성공/실패 샘플을 구성한다. UPDATERATIO는 Rt, Rt−1,(ct) 등을 이용해 ρt를 업데이트한다. E. Correction Prompt 구성: Original Prompt x와 후보 해답 ycand를 포함하는 교정 프롬프트를 구성하고, “정답 여부는 알려주지 않는다”는 신호를 포함한다. F. Training 목표: JCIPO(θ)는 Base Rollouts의 기여와 Correction Rollouts의 기여를 합친다.

실무 활용

CIPO는 외부 신호 없이도 RLVR 학습에서 실패를 활용해 교정 학습을 강화한다. LLM의 추론 및 디버깅 능력을 향상시키며 코드 디버깅, 수학 추론 등 다양한 문제에 적용 가능하다.

LLM 기반 코드 디버깅 및 수정 자동화
수학·논리 문제의 단계적 교정 학습
자기 수정 능력이 필요한 대화형 에이전트 개선
교정 데이터가 제한된 환경에서의 RLVR 유지 및 강화

코드 공개 여부: 미확인

키워드

RLVR (Reinforcement Learning with Verifiable Rewards)CIPO (Correction-Oriented Policy Optimization)GRPO (Group Relative Policy Optimization)correction sampling (교정 샘플링)on-policy failures (on-policy 실패)adaptive replay (적응형 재생)risk-averse reward shaping (리스크 회피 보상 설계)pass@K (Pass@K)