P(y|x)에서 P(y)로: 사전 학습 공간에서의 강화학습 조사

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 LLM 강화학습은 특정 질문에 대한 정답 확률을 높이는 데 집중했지만, 이는 모델이 원래 가진 능력치 안에서만 움직인다는 한계가 있었다. 이 논문은 질문 조건이 없는 '사전 학습 공간'에서 직접 강화학습을 수행하여 모델의 근본적인 추론 지평을 넓히고 학습 효율을 2.5배 높이는 새로운 패러다임을 제시한다.

왜 중요한가

기존 LLM 강화학습은 특정 질문에 대한 정답 확률을 높이는 데 집중했지만, 이는 모델이 원래 가진 능력치 안에서만 움직인다는 한계가 있었다. 이 논문은 질문 조건이 없는 '사전 학습 공간'에서 직접 강화학습을 수행하여 모델의 근본적인 추론 지평을 넓히고 학습 효율을 2.5배 높이는 새로운 패러다임을 제시한다.

핵심 기여

Pre-train Space RL (PreRL) 패러다임 제안

입력 질문 x에 의존하는 조건부 분포 P(y|x) 대신, 질문을 제거한 주변 분포 P(y)를 직접 최적화하는 새로운 강화학습 방식을 도입했다. 이를 통해 모델이 특정 문제에 매몰되지 않고 더 넓은 추론 경로를 탐색할 수 있는 기반을 마련했다.

부정 샘플 강화(NSR)의 핵심 역할 규명

사전 학습 공간에서의 강화학습 시, 정답을 강화하는 것보다 오답 경로를 제거하는 Negative Sample Reinforcement(NSR)가 추론 능력 향상에 훨씬 효과적임을 발견했다. NSR은 모델의 내재적 성찰 행동을 유도하여 반성적 사고를 각각 14.89배, 6.54배 증가시켰다.

Dual Space RL (DSRL) 프레임워크 구축

초기에는 Pre-train Space에서 오답 경로를 가지치기하고, 이후 표준 RL로 전환하여 미세 조정을 수행하는 2단계 전략을 제안했다. 이 방식은 기존 GRPO 대비 적은 학습 단계로도 더 높은 정확도와 일반화 성능을 달성했다.

핵심 아이디어 이해하기

대부분의 강화학습은 특정 질문(x)이 주어졌을 때 정답(y)이 나올 확률인 P(y|x)를 높이는 방향으로 Gradient Descent를 수행한다. 하지만 이는 모델이 사전 학습 단계에서 이미 알고 있는 지식의 범위 내에서만 정답을 찾으려 하는 '국소 최적해'에 빠지기 쉽다는 문제를 낳는다. 즉, 모델이 가보지 않은 더 나은 추론 경로가 있어도 현재의 좁은 탐색 범위 때문에 이를 발견하지 못하는 것이다.

이 논문은 질문 조건을 떼어낸 P(y) 자체를 최적화하는 아이디어에서 출발한다. 이는 모델의 파라미터가 특정 질문에 얽매이지 않고 '논리적으로 타당한 추론의 구조' 그 자체를 학습하게 만든다. 연구진은 수학적으로 log P(y)의 기울기와 log P(y|x)의 기울기가 매우 높은 상관관계를 가짐을 증명하여, 질문 없이 학습해도 실제 문제 풀이 능력이 향상될 수 있음을 확인했다.

특히 흥미로운 점은 '오답 제거'의 효과다. 딥러닝 모델에서 정답 확률을 높이는 Softmax 기반의 학습은 때로 모델을 과신하게 만들지만, 잘못된 추론 경로를 명시적으로 억제(NSR)하면 모델은 스스로 다른 대안을 찾으려는 '성찰적 사고'를 시작한다. 결과적으로 모델은 더 길고 복잡한 추론 과정을 견뎌낼 수 있는 체력을 기르게 되며, 이는 최종적으로 더 어려운 문제를 푸는 능력으로 이어진다.

관련 Figure

#5Chart
P(y|x)와 P(y)의 분포가 상당히 일치함을 보여줌으로써, 질문 없이 P(y)를 최적화하는 것이 실제 문제 풀이 능력 향상으로 이어질 수 있다는 이론적 근거를 뒷받침한다.
질문 조건이 있을 때와 없을 때의 토큰 확률 분포가 유사하게 정렬된 사례를 보여주는 시각화 자료이다.

방법론

전체적인 접근 방식은 Pre-train Space와 Post-train Space를 순차적으로 활용하는 Dual Space RL(DSRL) 구조를 취한다. 1단계인 Pre-train Space RL(PreRL) 단계에서는 입력 질문 x를 마스킹 처리하여 모델이 질문에 의존하지 않고 추론 궤적 y의 품질에만 집중하게 만든다. [질문이 제거된 추론 경로 y 입력 → 보상 함수 R(y) 계산 → log P(y)의 기울기 업데이트 → 질문 독립적 추론 능력 강화]

핵심 메커니즘인 Negative Sample Reinforcement(NSR)는 보상이 0보다 작은 오답 샘플에 대해서만 업데이트를 수행한다. [오답 추론 경로 생성 → 음수 보상 할당 → 해당 경로의 발생 확률 억제 → 모델의 내재적 오류 수정 및 대안 탐색 유도]. 이 과정에서 모델은 'Wait', 'Alternatively'와 같은 전환 및 성찰 토큰을 더 많이 생성하며 스스로 사고를 교정하는 법을 배운다.

학습 상세 측면에서는 GRPO(Group Relative Policy Optimization)를 기본 알고리즘으로 사용하며, 특정 임계 단계 S를 기준으로 Pre-train Space에서 Post-train Space로 전환하는 Policy Reincarnation 전략을 적용한다. [초기 S단계 동안 질문 마스킹 및 NSR 수행 → 이후 질문 조건을 복구하여 표준 RL 수행 → 정교한 문제 풀이 최적화]. 이를 통해 모델은 넓은 탐색 능력과 정교한 문제 해결 능력을 동시에 확보한다.

관련 Figure

#1Diagram
표준 RL이 국소 최적해에 갇히는 반면, DSRL은 NSR 가지치기를 통해 더 넓은 탐색을 수행하며 전역 최적해로 수렴하는 과정을 시각화한다. (c) 그래프는 DSRL이 GRPO 대비 훨씬 빠른 정확도 상승과 지속적인 응답 길이 성장을 달성함을 보여준다.
Post-train Space RL, Pre-train Space RL, 그리고 Dual Space RL의 기울기 목적 함수와 개념적 차이를 보여주는 다이어그램이다.

주요 결과

Qwen3-4B 및 8B 모델을 대상으로 MATH, AIME24, AMC23 등 고난도 수학 벤치마크에서 실험을 진행했다. DSRL 방식은 표준 GRPO 대비 Qwen3-4B에서 AIME24 기준 4.69점의 성능 향상을 기록했으며, 전체 평균 점수에서도 57.54점을 기록하여 기존 SOTA 방법론들을 압도했다.

효율성 분석 결과, DSRL은 표준 RL보다 2.5배 적은 학습 단계만으로도 45%의 정확도에 도달했으며, 최종적으로 1.6배 더 적은 단계로 더 높은 성능을 달성했다. 또한, 모델의 성찰적 사고(Reflection) 횟수가 기존 대비 6.54배 증가하여 추론의 질적 개선이 수치로 증명됐다.

일반화 성능(OOD) 평가에서도 뛰어난 성과를 보였다. 수학 외의 영역인 GPQA-Diamond(과학), MMLU-Pro(상식), HumanEval(코딩) 등에서 GRPO 대비 각각 +3.79, +5.37, +2.44점의 향상을 보이며, 사전 학습 공간에서의 최적화가 특정 도메인을 넘어선 범용적 추론 기초를 튼튼하게 함을 입증했다.

관련 Figure

#2Chart
NSR-PreRL이 표준 RL보다 훨씬 많은 전환(Transition) 및 성찰(Reflection) 사고를 유도함을 수치로 증명한다. 특히 성찰 사고가 6.54배 증가하며 모델의 내재적 추론 능력이 활성화됨을 보여준다.
NSR-PreRL 학습 시 보상, 응답 길이, 토큰 확률의 변화와 추론 유형별 빈도 비교 차트이다.

#3Chart
DSRL이 Pre-train 단계에서 오답 패턴을 빠르게 학습하여 Fully Unsolved 문제를 급격히 줄이고, 이후 Post-train 단계에서 정답률을 가파르게 높이는 시너지 효과를 입증한다.
학습 과정 중 완전히 해결된 문제(Fully Solved)와 전혀 해결되지 못한 문제(Fully Unsolved)의 개수 변화를 나타낸 그래프이다.

기술 상세

본 연구의 핵심은 P(y|x)와 P(y) 사이의 Gradient Alignment를 이론적으로 규명한 데 있다. 1차 테일러 전개를 통해 log P(y|x)의 업데이트가 log P(y)와 log P(y|x)의 내적(Inner Product)에 비례함을 보였으며, 실험적으로 이 내적값이 항상 0 이상임을 확인하여 PreRL이 표준 RL의 유효한 대리 목표(Surrogate)가 될 수 있음을 증명했다.

아키텍처 측면에서는 별도의 가치 네트워크(Value Network) 없이 그룹 내 상대적 보상을 사용하는 GRPO를 채택하여 메모리 효율성을 높였다. NSR-PreRL 단계에서는 I[s > S ∨ R(y) < 0] 지시 함수를 통해 오직 오답 샘플에 대해서만, 그리고 특정 학습 단계 S 이전까지만 질문 마스킹을 적용하는 정교한 제어 로직을 구현했다.

구현 세부사항으로는 AdamW 옵티마이저, 1e-6의 학습률, 128의 배치 사이즈를 사용했다. 특히 Warmup 단계의 최적화가 중요한데, 실험을 통해 10~25단계 사이의 짧은 Pre-train Space 학습이 이후의 Post-train Space 학습을 위한 최적의 초기화 상태를 만든다는 '역 U자형' 성능 곡선을 발견했다.

관련 Figure

#4Chart
10~25단계 사이의 웜업이 가장 높은 성능을 보이며, 너무 짧거나 길면 오히려 성능이 저하되는 최적의 전이 지점이 존재함을 보여준다.
NSR-PreRL 웜업 단계의 길이에 따른 최종 성능 변화를 보여주는 막대 그래프이다.

한계점

NSR-PreRL 단계가 너무 길어질 경우 모델이 지나치게 긴 답변을 생성하게 되어 연속적인 학습을 방해하는 '과잉 탐색' 문제가 발생할 수 있음을 명시했다. 또한, 정답 샘플을 강화하는 PSR-PreRL의 경우 모델이 스스로 생성한 데이터에 매몰되어 성능이 붕괴되는 현상이 관찰되어, 고품질의 외부 전문가 데이터가 병행되어야 할 필요성을 시사했다.

실무 활용

LLM의 추론 능력을 극대화하고자 하는 연구자나 엔지니어에게 매우 실용적인 방법론을 제공한다. 특히 데이터가 부족한 상황에서도 모델의 내재적 능력을 끌어올릴 수 있는 효율적인 학습 경로를 제시한다.

수학, 코딩 등 논리적 추론이 필수적인 특화 모델의 포스트 트레이닝 가속화
모델의 '생각하기(Thinking)' 과정을 더 길고 정교하게 유도하고 싶은 에이전트 개발
제한된 컴퓨팅 자원으로 표준 강화학습보다 빠른 성능 도달이 필요한 경우

코드 공개 여부: 공개

코드 저장소 보기

키워드

RLVR(검증 가능한 보상을 통한 강화학습)Pre-train Space(사전 학습 공간)NSR(부정 샘플 강화)DSRL(이중 공간 강화학습)Policy Reincarnation(정책 환생)Qwen(쿠웬)

코드 예제

text

<|im_start|>system
Please reason step by step, and put your final answer within \boxed{}. <|im_end|>
<|im_start|>user
{problem}
<|im_end|>
<|im_start|>assistant
<think>

</think>

Qwen3 모델의 추론 능력을 평가하기 위해 사용된 비사고(non-thinking) 모드 프롬프트 템플릿

P(y|x)에서 P(y)로: 사전 학습 공간에서의 강화학습 조사

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

코드 예제

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드