Latent Space PodcastResearch

LLM의 추론 능력: RLVR은 정말 새로운 능력을 만드는가?

RLVR이 LLM의 근본적인 추론 한계를 넓히기보다 기존의 잠재적 능력을 더 효율적으로 추출하는 과정임을 입증한 논문을 심층 분석한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

RLVR은 모델의 추론 능력을 근본적으로 확장하기보다는 Base 모델이 이미 가진 잠재적 정답 경로의 확률을 높이는 'Sharpening' 역할을 수행한다. 진정한 능력의 확장은 Distillation을 통해 이루어지며, RL은 샘플링 효율성을 극대화하는 도구로 이해해야 한다.

배경

NeurIPS에서 주목받은 'Does Reinforcement Learning Really Incentivize Reasoning Capability in LLMs Beyond the Base Model?' 논문을 바탕으로 한 기술 토론이다.

대상 독자

AI 연구자, LLM 학습 엔지니어, 강화학습 알고리즘에 관심 있는 개발자

의미 / 영향

이 토론은 LLM 학습 전략에서 RL의 역할을 재정의한다. 개발자들은 모델 성능 개선을 위해 무작정 RL 스텝을 늘리기보다, Base 모델의 잠재력을 먼저 파악하고 부족한 지식은 Distillation으로 채우는 전략적 접근이 필요함을 깨닫게 된다. 이는 고비용의 RL 학습 자원을 더 효율적으로 배분하는 가이드라인이 될 것이다.

챕터별 상세

00:00

RLVR의 핵심 가설: 효율성 vs 능력

RLVR이 모델의 추론 한계를 넓히지 않는다는 가설을 검토했다. RLVR은 정답을 맞힐 확률이 높은 경로를 더 자주 선택하게 만드는 샘플링 효율성 개선에 집중한다. 실험 결과 Base 모델에서 충분히 많은 샘플을 뽑으면 RL 모델과 유사한 성능이 나타났다. 이는 RL이 새로운 지식을 주입하는 것이 아니라 기존 지식을 더 잘 꺼내게 함을 시사한다.

•RLVR은 새로운 추론 능력을 창조하기보다 기존 경로의 확률을 높임
•Base 모델의 잠재적 능력을 효율적으로 추출하는 것이 RL의 본질
•능력의 경계(Reasoning Boundary)는 RL만으로 확장되지 않음

RLVR은 수학 문제나 코드 테스트처럼 정답 여부를 객관적으로 검증할 수 있는 보상을 사용하는 강화학습 기법이다.

02:36

RLVR과 기존 RLHF의 차별점

RLVR은 인간의 피드백에 의존하는 RLHF와 달리 이진화된 검증 가능 보상을 사용한다. RLHF는 보상이 조밀하고 복잡하지만, RLVR은 유닛 테스트 통과 여부나 수학적 정답 여부로 명확하게 결정된다. 토론자들은 RLVR이 모델의 예측 분포를 특정 정답 경로로 수렴시키는 과정임을 확인했다. 이 과정에서 모델의 엔트로피가 감소하고 특정 답변에 대한 확신이 강해진다.

•RLVR은 보상이 명확한 도메인(수학, 코딩)에서 강력한 성능을 발휘함
•RLHF 대비 보상의 노이즈가 적고 학습 목표가 뚜렷함
•학습 과정에서 정답 경로의 확률 분포가 날카로워지는 Sharpening 현상 발생

RLHF는 인간의 선호도를 학습한 Reward Model을 사용하지만, RLVR은 코드 실행 결과 등 객관적 지표를 보상으로 쓴다.

11:26

Pass@K 지표를 통한 능력 검증

Pass@K 곡선을 분석하여 Base 모델과 RL 모델의 성능 차이를 비교했다. K(샘플 수)가 작을 때는 RL 모델이 압도적이지만, K가 커질수록 Base 모델의 성능이 RL 모델을 추월하거나 일치하는 현상이 발견됐다. 이는 Base 모델이 이미 정답을 알고 있었으나 확률이 낮아 샘플링되지 않았을 뿐임을 증명한다. 반면 Distillation을 거친 모델은 K 값과 상관없이 Base 모델보다 높은 성능 한계를 보였다.

•K가 커질 때 Base 모델이 따라잡는다면 역량 자체가 부족한 것은 아님
•RL은 K=1일 때의 성능(샘플링 효율)을 극대화하는 데 최적화됨
•Distillation은 모델의 근본적인 성능 상한선 자체를 높이는 효과가 있음

Pass@K는 K개의 샘플을 생성했을 때 그중 하나라도 정답일 확률을 나타내는 평가지표다.

19:31

Perplexity 분석과 정답 경로의 성격

RL 모델이 생성한 정답 경로의 Perplexity를 Base 모델 기준으로 측정했다. RL로 학습된 정답 경로들이 Base 모델의 분포 내에 존재하며, Base 모델 입장에서 특별히 '놀라운' 경로가 아님이 확인됐다. 이는 RL이 모델이 전혀 생각지 못한 새로운 논리 전개를 만들어내는 것이 아님을 뒷받침한다. 모델은 이미 가능한 경로들 사이에서 보상에 따라 가중치를 재배치할 뿐이다.

•RL 정답 경로의 Perplexity는 Base 모델의 예측 범위 안에 있음
•RL 학습은 모델의 지식 분포를 근본적으로 바꾸지 않음
•Ground Truth 경로와 RL 생성 경로의 분포 유사성을 확인

Perplexity는 모델이 특정 텍스트 시퀀스를 얼마나 예측하기 어려워하는지를 나타내는 척도다.

31:19

Distillation과 지식 주입의 메커니즘

토론자들은 모델에 새로운 능력을 부여하는 유일한 방법으로 Distillation을 꼽았다. 더 강력한 모델(Teacher)이 생성한 고품질 추론 로그를 학습함으로써 Base 모델의 한계를 넘어서는 지식을 주입할 수 있다. RLVR은 이 과정을 가속화하거나 최적화할 수는 있지만, 데이터에 없는 새로운 논리 구조를 스스로 창조하지는 못한다. 따라서 고성능 모델 구축을 위해서는 양질의 데이터 증강과 Distillation이 필수적이다.

•Distillation은 모델의 추론 경계 자체를 확장하는 실질적 수단임
•RL은 주입된 지식을 꺼내는 효율성을 높이는 보완적 역할
•DeepSeek-R1 등의 사례에서 Distillation의 중요성이 재확인됨

Distillation은 상위 모델의 출력값을 하위 모델이 학습하여 성능을 전이받는 기법이다.

46:34

반론: RL이 새로운 능력을 깨우는 경우

Nvidia의 ProRL 논문 등 반대되는 연구 결과에 대해 토론했다. 특정 어려운 과제(Dice task 등)에서는 Base 모델의 성공 확률이 0에 가깝더라도 RL 학습을 통해 성능이 유의미하게 향상되는 경우가 보고되었다. 이는 학습 시간이 충분히 길고 과제가 특정 조건에 부합할 경우 RL이 잠재력을 넘어선 새로운 조합을 찾아낼 가능성을 시사한다. 하지만 일반적인 벤치마크에서는 여전히 '효율성 개선' 관점이 지배적이다.

•매우 어려운 과제에서는 RL이 새로운 해결 경로를 탐색할 가능성 존재
•학습 스텝 수와 과제의 복잡도에 따라 결과가 달라질 수 있음
•두 논문의 결과는 RL의 역할을 바라보는 서로 다른 시각을 제공함

ProRL 논문은 RL 학습이 모델의 추론 경계를 실제로 확장할 수 있다는 증거를 제시한 연구다.

실무 Takeaway

RLVR 학습을 진행할 때 모델이 새로운 지식을 배운다고 가정하기보다, 이미 아는 것을 더 정확하게 출력하도록 튜닝한다고 이해해야 한다.
모델의 추론 성능 한계를 높이고 싶다면 RL 단독 학습보다는 강력한 모델의 데이터를 활용한 Distillation 파이프라인을 먼저 구축해야 한다.
Pass@K 곡선에서 K가 커질 때 Base 모델이 RL 모델을 따라잡는지 확인하여, 현재 병목이 '지식의 부재'인지 '샘플링 확률의 문제'인지 진단할 수 있다.
Perplexity 분석을 통해 RL 학습 후 모델이 생성하는 답변이 원래의 지식 분포를 크게 벗어나는지 모니터링하여 학습의 안정성을 평가할 수 있다.

언급된 리소스

논문Does Reinforcement Learning Really Incentivize Reasoning Capability in LLMs Beyond the Base Model?

논문ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in LLMs

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 01. 15.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

LLM의 추론 능력: RLVR은 정말 새로운 능력을 만드는가? | AI Trends