TL;DR
RLVR의 보상 신호는 희소하고 이진적이라 크레딧 할당이 불분명하다. CIPO는 실패를 교정 지향 감독으로 전환해 학습 방향성을 강화하고, 모델이 자신의 오류를 수정하는 능력을 키운다. 11개 벤치마크에서 일관된 추론 및 교정 성능 향상과 pass@K 증가를 보고한다.
왜 중요한가
RLVR의 보상 신호는 희소하고 이진적이라 크레딧 할당이 불분명하다. CIPO는 실패를 교정 지향 감독으로 전환해 학습 방향성을 강화하고, 모델이 자신의 오류를 수정하는 능력을 키운다. 11개 벤치마크에서 일관된 추론 및 교정 성능 향상과 pass@K 증가를 보고한다.
핵심 기여
Failure-to-correction learning signal
실패를 단순한 부정 신호가 아니라 교정 학습의 근거로 바꿔 학습 신호의 방향성을 제공한다.
Two-stream RLVR extension (base + correction)
Base stream의 on-policy 롤아웃과 Correction stream의 교정 롤아웃을 함께 최적화한다.
Adaptive replay ratio + risk-averse shaping
적응형 replay 비율과 비대칭 보상 설계로 학습 안정성과 성능 향상을 동시에 달성한다.
Difficulty-aware trajectory preference
중간 난이도 프롬프트를 재생 우선순위에 두어 학습 효율을 높인다.
Empirical validation across 11 benchmarks
수학 및 코드 생성 벤치마크에서 GRPO 대비 일관된 개선과 pass@K의 강화가 관찰된다.
핵심 아이디어 이해하기
기초: RLVR은 verifiable rewards를 통해 강화학습 시퀀스 학습을 수행한다. 보상 신호가 이진적이고 희소하기 때문에 실패 롤아웃은 불완전한 학습 신호로 남는다. 이 문제를 CIPO가 해결한다: 실패 샘플에서 원래 프롬프트와 모델의 오답 출력을 conditioning하여 교정 후보를 샘플링하고, 이를 통해 실패 모드 간의 거리를 따라가며 구체적인 방향성을 가진 학습 신호를 제공한다. 둘 사이 차이점은 (i) 교정 샘플이 학습 신호를 밀도 있게 만들어 gradient의 방향성을 강화하고, (ii) 모델의 자체 오류 수정 능력을 강화해 추론 및 디버깅 시나리오에서도 효과가 나타난다는 점이다. 실험적으로 11개 벤치마크에서 CIPO가 GRPO 대비 일관된 개선을 보였고, pass@K 지표의 상승은 내재적 추론 능력의 확장을 시사한다.
관련 Figure

두 그림은 CIPO의 교정 방향성 신호가 실패의 차별화를 통해 학습 신호를 강화함을 보여주며, 학습 곡선의 방향성 개선에 기여한다.
Left: Standard RLVR의 실패는 근본적 오류와 단순한 최종 계산 실수 등 다양한 실패 모드를 하나의 부정 신호로 묶는다. Right: CIPO는 Near-miss 실패에 방향성 가이드를 제공하는 교정 시나리오로 다룬다.
방법론
- 기본 아이디어: 두 흐름(base rollouts, correction rollouts)을 사용해 정책을 업데이트한다. 각 프롬프트 x에 대해 πθ가 y를 생성하고 R(x, y)로 보상을 받으며, correction 롤아웃은 xrep = Concat(x, y) 형태로 구성된 프롬프트를 바탕으로 y′를 샘플링한다. JCIPO(θ) = E_{x∼D,y∈Bbase}[A(i) log πθ(y|x)] + λ E_{(x, yc, rc)∈Xrec}[A′(i) log πθ(y′|x, yc)]로 두 흐름을 함께 최적화한다.
관련 Figure

두 스트림의 병렬적 학습 흐름과 Rollout Replay/Adaptive Control의 상호작용을 시각화하여 방법론의 핵심 구성을 설명한다.
CIPO의 전체 프레임워크를 나타내는 파이프라인 다이어그램으로, Base Rollouts와 Correction Rollouts의 흐름을 보여준다.
주요 결과
- 메인 벤치마크: 수학 문제 해결에서 Avg 64.38%로 GRPO 대비 4.55% 포인트 향상. 코드 생성 벤치에서 평균도 개선된다. 시나리오별로 AIME24/25, AMC23, MATH500 등에서 상향이 확인된다. - 패스@K: 수학 task에서 pass@32가 약 86.67% 등으로 개선되었고, 코드 벤치에서도 pass@8의 성능이 상승했다. - Ablation: on-policy replay 제거 시 성능 저하가 나타나며, 위험 회피형 보상 설계 제거 시 전반적으로 가장 큰 하락이 발생한다. Difficulty-aware 제거 시 학습 효율이 저하된다. - 일반화: 내재적 교정 능력이 향상되어 out-of-domain에서도 교정/ critiques 능력이 향상된다. - 발전성: 동일 예산에서 GRPO 대비 4%대 추가 이점으로 알고리즘 설계가 성능 향상의 주된 원인임이 확인된다.
관련 Figure

훈련 중 성능의 지속적 향상을 시각적으로 보여주며, CIPO의 학습 신호 개선이 실제 성능으로 직결됨을 뒷받침한다.
Pass@8 학습 다이나믹스 그래프: CIPO가 GRPO에 비해 학습 초반부터 분리된 향상을 보이고 500스텝 이후 지속적으로 상승한다.
기술 상세
A. 아키텍처: 두 데이터 스트림(Base, Correction). Correction 롤아웃은 x′ = AUGMENT(x, yc)로 구성된 프롬프트에서 y′을 샘플링한다. B. 핵심 메커니즘: Ai = (ri − μr)/σr로 그룹 내 이점을 계산하고, Correction 샘플의 보상은 Rrisk(x, y, y′) = R(x, y′) − λrisk·I[R(x, y)=1 ∧ R(x, y′)=0]로 정의한다. 이때 λrisk은 리스크 회피 파라미터다. C. 구현 차별점: 기존 GRPO는 실패를 동일하게 부정 신호로 처리하지만, CIPO는 실패를 근거 있는 교정 방향으로 바꾼다. D. 학습 세부: RolloutReplay는 중간 난이도 프롬프트를 우선 선택하고, N+/N− 비율로 성공/실패 샘플을 구성한다. UPDATERATIO는 Rt, Rt−1,(ct) 등을 이용해 ρt를 업데이트한다. E. Correction Prompt 구성: Original Prompt x와 후보 해답 ycand를 포함하는 교정 프롬프트를 구성하고, “정답 여부는 알려주지 않는다”는 신호를 포함한다. F. Training 목표: JCIPO(θ)는 Base Rollouts의 기여와 Correction Rollouts의 기여를 합친다.
실무 활용
CIPO는 외부 신호 없이도 RLVR 학습에서 실패를 활용해 교정 학습을 강화한다. LLM의 추론 및 디버깅 능력을 향상시키며 코드 디버깅, 수학 추론 등 다양한 문제에 적용 가능하다.
- LLM 기반 코드 디버깅 및 수정 자동화
- 수학·논리 문제의 단계적 교정 학습
- 자기 수정 능력이 필요한 대화형 에이전트 개선
- 교정 데이터가 제한된 환경에서의 RLVR 유지 및 강화
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.