RLVR에서의 학습 불능 현상: LLM 강화학습의 표현 한계와 gradient 문제

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

RLVR는 LLM의 추론 능력을 향상시키기 위한 핵심 기법이지만, 일부 hard 예제는 정답을 포함한 positive rollouts를 관찰하더라도 학습되지 않는다. 본 연구는 이러한 unlearnability 현상의 존재를 체계적으로 입증하고, 데이터 증강이나 커리큘럼 학습이 이를 완화하지 못함을 보여준다. 이로써 RLVR 학습의 근본적 한계와 모델 표현의 품질이 중요하다는 시사점을 제시한다.

왜 중요한가

RLVR는 LLM의 추론 능력을 향상시키기 위한 핵심 기법이지만, 일부 hard 예제는 정답을 포함한 positive rollouts를 관찰하더라도 학습되지 않는다. 본 연구는 이러한 unlearnability 현상의 존재를 체계적으로 입증하고, 데이터 증강이나 커리큘럼 학습이 이를 완화하지 못함을 보여준다. 이로써 RLVR 학습의 근본적 한계와 모델 표현의 품질이 중요하다는 시사점을 제시한다.

관련 Figure

Diagram
해당 도해는 unlearnable 예제가 존재하고 learning dynamics가 달라짐을 직관적으로 보여주며, 후속 실험의 gradient 분석과 연결된다.
RLVR 개념도 및 학습 흐름(샘플링/보상/업데이트)과 세 가지 예제군(Unlearnable/Learnable/Easy)을 시각화한 도해

핵심 기여

Unlearnability 현상의 실증적 발견

다양한 모델(Qwen2.5-0.5B, Llama-3.2-3B-Instruct, Qwen2.5-3B)에서 초기 난이도 상의 hard 예제 중 절반가량이 학습되지 않는 현상을 관찰했다. 이 현상은 positive reward가 존재하더라도 지속된다.

gradient similarity를 통한 표현 문제 진단

각 예제별 gradient를 계산해 예제 간 코사인 유사도를 측정한 결과, unlearnable 예제는 전체 데이터와의 gradient similarity가 현저히 낮아, 다른 그룹의 학습 신호가 이 예제에 전달되지 않음을 보인다.

데이터 증강의 한계와 mid-training의 효과

데이터 증강은 gradient similarity를 개선하거나 reasoning quality를 향상시키지 못했고, mid-training은 difficult 예제의 gradient similarity를 크게 개선하는 것으로 나타났다.

RLVR의 학습 역학에 대한 체계적 분석

초기 정책에서의 correct/incorrect rollout 간의 gradient 간섭 여부를 분석하여, unlearnable 예제에서 gradient 간섭이 핵심이 아님을 확인했다.

핵심 아이디어 이해하기

출발점: RLVR은 final answer의 정답 여부로 reward를 부여하는 구조로, 올바른 해답을 가리키는 intermediate reasoning의 품질은 보장되지 않는다. 가설1(positive rollout 희소성)과 가설2(clip/KL 제약에 의한 신호 소멸), 가설3(그라디언트 간섭) 모두를 실험적으로 점검했으나, unlearnability의 주된 원인은 분명한 표현 문제로 드러났다. 핵심 아이디어는 gradient similarity를 통해 각 예제의 학습 신호가 전체 데이터와 얼마나 잘 공유되는지 측정하고, unlearnable 예제가 학습 신호를 충분히 흡수하지 못하는 이유를 representation 차원에서 찾는 것이다.

관련 Figure