CIPO
CIPO는 on-policy 실패 샘플에서 교정 샘플을 생성해 교정 지향 감독으로 학습 신호를 제공하는 RLVR 확장이다. 실패를 단순한 패널티가 아닌 교정 학습의 근거로 활용한다.