핵심 요약
LLM의 추론 능력을 높이는 강화학습 과정에서 정답을 맞힌 샘플과 틀린 샘플을 똑같이 취급하던 기존 방식의 한계를 해결했다. 틀린 답변에 대해서만 세밀한 교정 학습을 진행함으로써 학습 속도를 높이고 성능 저하를 방지하여 Qwen3-8B 모델에서 평균 3.4% 이상의 성능 향상을 달성했다.
왜 중요한가
LLM의 추론 능력을 높이는 강화학습 과정에서 정답을 맞힌 샘플과 틀린 샘플을 똑같이 취급하던 기존 방식의 한계를 해결했다. 틀린 답변에 대해서만 세밀한 교정 학습을 진행함으로써 학습 속도를 높이고 성능 저하를 방지하여 Qwen3-8B 모델에서 평균 3.4% 이상의 성능 향상을 달성했다.
핵심 기여
샘플 라우팅 프레임워크 SRPO 제안
성공한 샘플은 보상 기반의 GRPO로 강화하고, 실패한 샘플은 로짓 수준의 세밀한 교정이 가능한 SDPO로 전달하는 이원화된 라우팅 구조를 설계했다.
자기 증류 학습의 불안정성 원인 규명
이미 정답인 샘플에 대한 자기 증류가 최적화 모호성을 유발하고, 학습 후반부로 갈수록 티처 신호의 신뢰도가 하락하여 성능이 붕괴됨을 실험적으로 증명했다.
엔트로피 인식 동적 가중치 메커니즘 도입
티처 모델의 출력 엔트로피를 기반으로 학습 가중치를 조절하여, 불확실한 신호는 억제하고 확신 있는 교정 정보만 강조함으로써 학습 안정성을 확보했다.
연산 효율성 및 추론 비용 개선
학습이 진행됨에 따라 실패 샘플이 줄어들면 SDPO 연산 비중이 자동으로 감소하여, 기존 방식 대비 단계별 연산 비용을 최대 17.2% 절감했다.
핵심 아이디어 이해하기
기존의 GRPO와 같은 강화학습 방식은 전체 답변이 맞았는지 틀렸는지만 보고 모든 단어(토큰)에 동일한 상벌을 준다. 이는 마치 시험 문제 하나를 틀렸다고 시험지 전체 내용을 반성하게 하는 것과 같아 학습 효율이 떨어진다. 반면 SDPO는 틀린 부분만 콕 집어 교정해주지만, 이미 맞은 문제까지 억지로 고치려다 오히려 원래 실력을 잃어버리는 '붕괴' 현상이 발생한다.
SRPO는 이 두 방식의 장점만 취하기 위해 '샘플 라우팅' 개념을 도입했다. 모델이 생성한 답변 중 정답인 것은 GRPO로 보내 '지금처럼만 해'라고 격려하고, 오답인 것만 SDPO로 보내 '이 부분이 틀렸으니 이렇게 고쳐'라고 집중 교육한다. 이때 오답 교정 과정에서 티처 모델이 스스로도 헷갈려 하는 부분(높은 엔트로피)은 무시하고, 확실하게 아는 부분만 가르치도록 설계했다.
결과적으로 학습 초기에는 오답이 많아 SDPO가 활발히 작동하며 실력을 빠르게 끌어올리고, 학습 후반부에는 정답률이 높아지면서 GRPO가 주도권을 잡아 전체적인 안정성을 유지한다. 이러한 동적 전환 덕분에 모델은 더 똑똑해지면서도 답변이 지나치게 길어지거나 짧아지는 부작용 없이 효율적으로 학습을 마칠 수 있다.
방법론
SRPO는 온폴리시(On-policy) 강화학습 프레임워크로, 각 샘플의 상태에 따라 최적화 경로를 결정한다. 전체 프로세스는 프롬프트 샘플링, 롤아웃 생성, 보상 평가, 티처 정보 구축, 라우팅 및 손실 계산 순으로 진행된다.
샘플 라우팅은 두 가지 지표를 사용한다. 정답 여부(ci)와 티처 정보 가용성(mi)이다. [ci=0 이고 mi=1 인 경우] → [SDPO 브랜치로 할당] → [로짓 수준의 교정 수행] → [세밀한 오류 수정]의 과정을 거친다. 그 외의 모든 경우(이미 정답이거나 교정할 티처 정보가 없는 경우)는 GRPO 브랜치로 보내져 그룹 내 상대적 보상을 기반으로 학습된다.
SDPO 브랜치에서는 엔트로피 인식 동적 가중치(DW-SDPO)를 적용한다. 티처 분포의 엔트로피 Hi,t를 계산하고, [exp(-β*Hi,t) 연산을 통해] → [불확실성이 높을수록 작은 가중치를 부여하여] → [최종 손실 함수에 반영] → [노이즈 섞인 티처 신호로부터 모델을 보호]한다. 전체 손실 함수 Lfinal은 각 브랜치에 할당된 토큰 수로 정규화되어 하이퍼파라미터 튜닝 없이도 두 신호의 비중을 자동으로 조절한다.
주요 결과
Qwen3-8B 모델을 사용한 5개 벤치마크 평가에서 SRPO는 평균 77.4%의 정확도를 기록했다. 이는 GRPO 대비 3.4%, SDPO 대비 6.3% 향상된 수치다. 특히 SDPO가 학습 후반부에 성능이 급격히 하락(Collapse)하는 것과 달리, SRPO는 학습 시간 내내 안정적인 우상향 곡선을 그리며 GRPO의 최종 성능마저 추월했다.
효율성 측면에서도 뛰어난 성과를 보였다. 학습 10시간 시점에서 SRPO는 GRPO 대비 17.2%, SDPO 대비 9.4% 더 빠른 단계별 연산 속도를 기록했다. 이는 학습이 진행될수록 정답률이 올라가면서 연산량이 많은 SDPO 브랜치 사용 빈도가 자연스럽게 줄어들기 때문이다. 또한 GRPO의 고질적 문제인 답변 길이 비대화 현상을 억제하여 적절한 길이의 효율적인 답변을 생성함을 확인했다.
기술 상세
SRPO는 GRPO의 보상 기반 정책 경사(Policy Gradient)와 SDPO의 로짓 기반 증류(Distillation)를 단일 목적 함수로 통합했다. GRPO 브랜치는 시퀀스 수준의 어드밴티지(Sequence-level Advantage)를 모든 토큰에 균일하게 배분하여 전체적인 보상 극대화를 유도하며, SDPO 브랜치는 토큰 수준의 어드밴티지(Logit-level Advantage)를 통해 국소적인 추론 오류를 수정한다.
수학적으로 SDPO의 불안정성을 '최적화 모호성(Optimization Ambiguity)'으로 정의했다. 동일한 보상을 받는 여러 추론 경로가 존재할 때, 이미 성공한 경로를 다른 성공한 경로의 로짓에 맞추도록 강제하는 것이 정책의 엔트로피를 인위적으로 낮추고 학습을 방해한다는 점을 지적했다. SRPO는 라우팅을 통해 성공 샘플을 SDPO에서 제외함으로써 이 문제를 원천 차단했다.
구현 측면에서는 티처 모델을 학생 모델의 지수 이동 평균(EMA)으로 유지하며, SGLang 엔진을 사용하여 추론 효율성을 높였다. 8개의 NVIDIA H20 GPU 환경에서 Qwen3-4B 및 8B 모델을 대상으로 실험하여 모델 스케일에 관계없는 일관된 성능 향상을 입증했다.
한계점
본 연구는 수학, 과학, 도구 사용 등 정답이 명확한(Verifiable Rewards) 환경에 국한되어 실험되었다. 따라서 정답이 주관적이거나 모호한 일반적인 대화형 시나리오에서의 효과는 아직 검증되지 않았다. 또한 현재는 성공한 형제 롤아웃(Sibling Rollout)만을 티처 정보로 사용하고 있어, 더 풍부한 환경 피드백을 활용하는 방향으로의 확장이 필요하다.
실무 활용
수학, 과학, 코딩과 같이 정답이 명확한 도메인에서 LLM을 사후 학습(Post-training)할 때 즉시 적용 가능한 고효율 프레임워크이다.
- 과학 및 수학 문제 풀이 전용 LLM의 추론 성능 고도화
- 제한된 컴퓨팅 자원 환경에서 강화학습 효율 극대화가 필요한 경우
- 강화학습 중 발생하는 모델의 성능 붕괴나 답변 길이 비대화 문제 해결
- 도구 사용(Tool Use) 에이전트의 정확도 및 안정성 개선
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.