핵심 요약
Reinforcement Learning with Verifiable Rewards(RLVR) 학습 시 전문가 부족으로 발생하는 잘못된 정답(Noisy Labels) 문제를 해결합니다. 데이터에 노이즈가 많아도 모델이 스스로 정답을 찾아내 교정함으로써 학습 효율과 성능을 동시에 개선할 수 있음을 입증했습니다.
왜 중요한가
Reinforcement Learning with Verifiable Rewards(RLVR) 학습 시 전문가 부족으로 발생하는 잘못된 정답(Noisy Labels) 문제를 해결합니다. 데이터에 노이즈가 많아도 모델이 스스로 정답을 찾아내 교정함으로써 학습 효율과 성능을 동시에 개선할 수 있음을 입증했습니다.
핵심 기여
RLVR 환경에서의 노이즈 라벨 체계적 분류
모델이 생성할 수 없는 'Inactive Noisy Labels'와 모델을 잘못된 방향으로 강화하는 'Active Noisy Labels'로 노이즈를 정의하고 각각의 영향을 분석했다.
Early Correctness Coherence 현상 발견
학습 초기에는 노이즈가 섞인 샘플에서도 모델이 잠재적으로 정답을 생성하기 시작하며, 클린 샘플과 유사한 정확도 상승 곡선을 보인다는 동역학적 특성을 규명했다.
Online Label Refinement(OLR) 알고리즘 제안
모델이 생성한 다수결 답변의 통계적 경향성과 역사적 일관성을 모니터링하여, 학습 과정 중에 실시간으로 잘못된 라벨을 정답으로 교체하는 프레임워크를 개발했다.
다양한 벤치마크에서의 강건성 입증
수학 및 상식 추론 벤치마크에서 0.1부터 0.9까지의 노이즈 비율 전체에 걸쳐 기존 GRPO 대비 평균 3.3%~4.6%의 성능 향상을 달성했다.
핵심 아이디어 이해하기
기존의 지도 학습은 주어진 라벨이 틀려도 이를 무조건 추종하려 하지만, Reinforcement Learning with Verifiable Rewards(RLVR)는 모델이 직접 정답을 생성(Rollout)해야만 학습이 일어난다. 이때 모델의 파라미터는 클린 데이터와 노이즈 데이터를 공유하므로, 클린 데이터를 통해 얻은 추론 능력이 노이즈 데이터 처리 시에도 긍정적인 영향을 미치는 'Cross-sample coupling' 현상이 발생한다.
연구진은 학습 초기에 노이즈가 섞인 문제에 대해서도 모델이 점차 정답을 내놓기 시작한다는 점에 주목했다. 비록 정답 라벨이 잘못되어 있어도 모델 내부적으로는 정답을 맞히는 확률이 올라가는 'Early Correctness Coherence'가 나타난다. 이는 모델이 이미 무엇이 옳은지 스스로 깨닫기 시작했음을 의미한다.
OLR은 이 신호를 포착하여, 모델이 스스로 내놓는 정답의 확신도가 높아지고 그 정답이 시간에 따라 일관되게 유지될 때 기존의 잘못된 라벨을 모델 자신의 정답으로 갈아치운다. 결과적으로 모델은 잘못된 스승(노이즈 라벨) 대신 자신의 향상된 실력을 믿고 스스로를 교정하며 학습하게 된다.
방법론
전체적인 접근 방식은 Group Relative Policy Optimization(GRPO)를 기반으로 하며, 학습 과정 중에 실시간으로 라벨을 정제하는 Online Label Refinement(OLR) 모듈을 통합한 구조이다. 모델이 각 프롬프트에 대해 K개의 답변을 생성하면, 이들 중 가장 많이 등장한 답변(Majority Answer)의 통계적 지표를 추적하여 라벨 교체 여부를 결정한다.
핵심 메커니즘은 두 가지 기준(Criterion)을 충족할 때 라벨을 교체하는 것이다. 첫째는 'Positive Convergence Slope'로, 다수결 답변의 통과율(Pass rate) 궤적에 대해 선형 회귀를 수행하여 기울기 S를 계산한다. [과거부터 현재까지의 에포크 t와 해당 시점의 통과율 p를 입력으로] → [선형 회귀 공식 (t-t_avg)(p-p_avg) / (t-t_avg)^2을 연산하여] → [기울기 S를 얻고] → [이 값이 양수이면 모델의 확신도가 상승 중임을 의미한다].
둘째는 'Historical Consistency'로, 현재의 다수결 답변이 과거 업데이트 과정에서 가장 빈번하게 등장했던 답변과 일치하는지 확인한다. [현재 다수결 답변과 과거 이력 H를 입력으로] → [가장 많이 등장한 답변을 찾는 argmax 연산을 수행해] → [일관성 지표 C를 얻고] → [이 값이 1이면 우연히 나온 답변이 아닌 안정적인 정답 후보임을 의미한다].
최종적으로 기울기가 임계값보다 크고 일관성이 확인되면 기존 라벨을 모델의 다수결 답변으로 교체한다. 이 과정은 별도의 외부 모델 없이 RLVR의 온폴리시(On-policy) 데이터를 그대로 활용하므로 추가적인 연산 오버헤드가 거의 발생하지 않는다는 특징이 있다.
주요 결과
Qwen3-4B-Base 모델을 사용한 실험에서, 노이즈 비율이 0.5인 환경 하에 OLR은 In-distribution 수학 벤치마크(AIME, MATH-500 등)에서 기존 GRPO 대비 평균 8.8%p(Inactive noise) 및 6.4%p(Active noise)의 정확도 향상을 보였다. 특히 노이즈 비율이 0.9에 달하는 극한의 상황에서도 모델 붕괴 없이 학습을 지속하여 성능을 개선하는 강건성을 입증했다.
Ablation study 결과, 기울기 기반의 수렴 감지와 역사적 일관성 검사 중 하나라도 제거할 경우 성능이 약 20% 가량 하락하는 것으로 나타나 두 지표의 상호보완적 중요성을 확인했다. 또한 Out-of-distribution(ARC-c, GPQA 등) 평가에서도 평균 3.3%~4.6%의 이득을 얻어 제안된 방법론의 일반화 성능을 증명했다.
기술 상세
본 연구는 RLVR의 로그 확률비(Log-ratio) 동역학을 마팅게일(Martingale) 분해를 통해 이론적으로 분석했다. 클린 샘플과 노이즈 샘플 간의 파라미터 공유로 인한 'Cross-sample coupling' 항을 정의하고, 특정 조건(노이즈 비율 ρ < ρ_c) 하에서 정답의 로그 확률이 단조 증가함을 수학적으로 증명했다.
기존의 노이즈 라벨 학습 기법들이 주로 정적인 분류(Classification) 문제에 국한되었던 것과 달리, OLR은 RLVR의 생성적 특성과 온폴리시 데이터 생성 과정을 활용한다. 특히 'Active Noisy Labels'가 모델을 잘못된 분포로 유도하는 메커니즘을 규명하고, 이를 억제하기 위한 동적 임계값 설정 및 통계적 필터링 기법을 제안했다는 점에서 기술적 차별성을 갖는다.
한계점
초기 학습 단계(T epochs) 동안은 노이즈 라벨을 그대로 사용해야 하므로 초기 단계의 학습 효율이 다소 저하될 수 있다. 또한 기울기 임계값(δ_slope)과 초기 학습 기간(T) 등 하이퍼파라미터 설정에 따라 성능 민감도가 존재하며, 이는 도메인마다 최적화가 필요할 수 있다.
실무 활용
데이터 정제 비용이 높거나 전문가 라벨링이 어려운 대규모 추론 모델 학습 현장에서 즉시 활용 가능하다. 특히 정답 검증기(Verifier)가 완벽하지 않은 도메인에서 학습 데이터의 품질 문제를 소프트웨어적으로 해결할 수 있다.
- 수학, 코딩 등 정답 확인은 가능하지만 초기 학습 데이터에 오답이 섞여 있는 경우의 RLVR 학습
- 웹 크롤링 데이터 등 노이즈가 많은 대규모 데이터셋을 활용한 추론 모델의 사후 학습(Post-training)
- 모델이 스스로 생성한 답변을 바탕으로 학습 데이터를 정제하는 자가 개선(Self-improvement) 파이프라인 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.