비지도 강화학습(URLVR)은 LLM 학습을 어디까지 확장할 수 있는가?

LLM 학습에서 정답 라벨을 확보하는 비용이 기하급수적으로 늘어나는 문제를 해결하기 위해, 정답 없이 모델 스스로 학습하는 비지도 강화학습의 가능성과 한계를 체계적으로 분석했다. 특히 모델이 언제 학습 효율을 잃고 붕괴하는지를 예측하는 지표를 제시하여 불필요한 학습 비용을 줄이고 새로운 학습 방향을 제시했다는 점에서 중요하다.

왜 중요한가

핵심 기여

URLVR 분류 체계 및 통합 프레임워크 구축

보상 소스에 따라 내재적(Intrinsic) 보상과 외재적(External) 보상으로 분류하고, 다양한 내재적 보상 기법들을 교차 엔트로피 조작 관점에서 해석하는 통합 수식을 정의했다.

내재적 보상의 샤프닝 메커니즘 이론적 증명

모든 내재적 보상 방법론이 결국 초기 분포를 날카롭게 만드는(Sharpening) 메커니즘으로 수렴하며, 이는 새로운 지식 습득이 아닌 기존 선호도의 증폭임을 수학적으로 입증했다.

Model Collapse Step 지표 제안

보상 정확도가 1% 미만으로 떨어지는 시점을 측정하여, 실제 강화학습 수행 전 모델의 학습 가능성(Trainability)을 5.6배 적은 비용으로 예측하는 지표를 개발했다.

외재적 보상의 확장성 확인

자기 검증(Self-verification)과 같은 외재적 보상 방식이 내재적 방식의 한계인 신뢰도-정확도 천장을 극복하고 지속적인 성능 향상을 이끌어낼 수 있음을 실험적으로 확인했다.

핵심 아이디어 이해하기

기존의 강화학습은 정답 라벨이 필수적이지만, 데이터 규모가 커질수록 정답을 만드는 비용이 너무 커진다. 이를 해결하기 위해 모델의 출력값에 대한 확신(Certainty)이나 여러 출력물 간의 일치도(Majority Voting)를 보상으로 사용하는 비지도 방식이 주목받았으나, 왜 초기에는 잘 되다가 나중에는 성능이 급락하는지 명확하지 않았다.

이 논문은 모든 내재적 보상 방식이 결국 Softmax 분포를 더 뾰족하게 만드는 'Sharpening' 작용을 한다는 점을 짚어낸다. Gradient Descent 과정에서 모델이 이미 알고 있는 정답에 가까운 것들에 더 높은 확률을 부여하게 되는데, 이는 새로운 지식을 배우는 것이 아니라 기존에 가진 선호(Prior)를 강화하는 과정이다.

결과적으로 초기 모델의 확신이 실제 정답과 일치할 때는 성능이 오르지만, 학습이 진행될수록 모델은 정답 여부와 상관없이 자신의 확신만을 극대화하게 된다. 이는 결국 보상 해킹과 모델 붕괴로 이어지며, 내재적 신호만으로는 모델의 원래 지식 경계를 넘어설 수 없음을 의미한다.

방법론

URLVR을 내재적 보상(Certainty-based, Ensemble-based)과 외재적 보상(Unlabeled data, Gen-Verify Asymmetry)으로 분류하는 체계를 수립했다. 내재적 보상은 모델 내부 상태에서 유도되며, 외재적 보상은 외부 연산이나 데이터 구조에서 유도된다.

내재적 보상의 수렴성을 분석하기 위해 KL-regularized RL 목적 함수를 사용했다. [모델의 정책 $\pi_\theta$ 와 참조 정책 $\pi_{ref}$ 사이의 KL 발산 제약 조건 하에서 기대 보상을 최대화] → [최적 정책 $\pi_\theta^*$ 가 $\pi_{ref}(y|x) \exp(r(x,y)/\beta)$ 에 비례함을 도출] → [반복적인 업데이트가 초기 다수결 답변으로 기하급수적으로 수렴함을 증명]하여 이 과정이 분포의 샤프닝임을 확인했다.

모델의 학습 가능성을 측정하기 위해 'Model Collapse Step'을 정의했다. [내재적 보상 기반 학습 중 보상 정확도가 1% 미만으로 떨어지는 시점의 Step 수를 측정] → [이 수치가 실제 정답 기반 강화학습의 성능 향상 폭(GT Gain)과 강한 상관관계를 가짐을 확인] → [전체 학습 대비 5.6배 적은 토큰으로 모델의 잠재력을 평가]하는 프로세스를 구축했다.

주요 결과

내재적 보상 방식은 방법론에 상관없이 공통적으로 '상승 후 하락(Rise-then-fall)' 패턴을 보였다. 특히 Probability 기반 보상은 답변 길이를 극단적으로 줄이는 'Length Collapse'를, Entropy 기반 보상은 특정 토큰을 반복하는 'Repetition Collapse'를 유발했다.

데이터셋 크기에 따른 분석 결과, 128개 이하의 소규모 데이터셋에서는 모델 붕괴 없이 안정적인 성능 향상이 가능하여 Test-time Training에 적합함을 확인했다. 반면 512개 이상의 대규모 데이터셋에서는 예외 없이 보상 해킹이 발생했다.

Model Collapse Step은 기존의 pass@k 지표보다 실제 강화학습 성능 향상(GT Gain)을 더 정확하게 예측했다. Qwen3-1.7B 모델 평가 시, 전체 학습 대비 5.6배 빠른 속도로 모델의 성능 한계를 예측하는 데 성공했다. 외재적 보상인 자기 검증 방식은 Countdown 태스크에서 정확도를 60%에서 80% 이상으로 지속적으로 향상시켰다.

실무 활용

비지도 강화학습을 대규모 학습에 직접 쓰기보다는, 소규모 데이터셋을 활용한 실시간 적응이나 모델의 잠재력을 빠르게 평가하는 용도로 활용할 때 가장 효과적이다.

추론 시점 적응(Test-time Training): 특정 도메인의 소수 샘플에 대해 모델을 실시간으로 최적화하여 정확도 향상
모델 선별(Base Model Selection): 여러 체크포인트 중 강화학습 효율이 가장 좋을 모델을 Model Collapse Step으로 빠르게 판별
자기 검증 시스템 구축: 생성-검증 비대칭성을 활용하여 정답지 없이도 지속적으로 개선되는 학습 파이프라인 설계

기술 상세

내재적 보상을 교차 엔트로피 조작 관점에서 해석하는 'Unified Reward Framework'를 제안했다. 보상 함수 $r_{uni}(x,y) = \psi(\frac{\sigma}{|I|} \sum_{i \in I} \mathbb{H}(q^i, \pi_\theta^i))$ 로 정의하며, 여기서 $q^i$ 는 앵커 분포, $\pi_\theta^i$ 는 모델 분포, $\sigma$ 는 최적화 방향을 결정한다.

이론적 분석을 통해 $\sigma = -1$ 인 경우(Probability, Entropy 등) 보상-확신 단조성(Reward-Confidence Monotonicity)이 성립하여 모델이 결정론적 정책으로 수렴함을 증명했다. 이는 모델이 초기 선호도를 기하급수적으로 강화하게 만듦을 의미한다.

외재적 보상 중 하나인 자기 검증 실험에서는 Countdown 태스크를 사용했다. 생성은 어렵지만 검증은 쉬운 비대칭성을 활용하여, 모델이 스스로 생성한 답안을 검증 프롬프트로 평가하고 이를 보상으로 사용하여 성능을 개선했다. 이 방식은 내재적 방식과 달리 보상 정확도가 안정적으로 유지되는 특성을 보였다.

한계점

내재적 보상 방식이 왜 지식 교정이 아닌 단순 증폭에 그치는지에 대한 근본적인 한계를 지적하며, 외재적 보상 없이는 모델의 지식 경계를 넘어서는 확장이 불가능함을 명시했다.

키워드

URLVR(비지도 강화학습)Distribution Sharpening(분포 샤프닝)Model Collapse(모델 붕괴)Self-Verification(자기 검증)Reward Hacking(보상 해킹)

비지도 강화학습(URLVR)은 LLM 학습을 어디까지 확장할 수 있는가?

왜 중요한가

핵심 기여

URLVR 분류 체계 및 통합 프레임워크 구축

내재적 보상의 샤프닝 메커니즘 이론적 증명

Model Collapse Step 지표 제안

외재적 보상의 확장성 확인

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

추론 시점 적응(Test-time Training): 특정 도메인의 소수 샘플에 대해 모델을 실시간으로 최적화하여 정확도 향상
모델 선별(Base Model Selection): 여러 체크포인트 중 강화학습 효율이 가장 좋을 모델을 Model Collapse Step으로 빠르게 판별
자기 검증 시스템 구축: 생성-검증 비대칭성을 활용하여 정답지 없이도 지속적으로 개선되는 학습 파이프라인 설계

기술 상세

한계점

키워드

URLVR(비지도 강화학습)Distribution Sharpening(분포 샤프닝)Model Collapse(모델 붕괴)Self-Verification(자기 검증)Reward Hacking(보상 해킹)

비지도 강화학습(URLVR)은 LLM 학습을 어디까지 확장할 수 있는가?

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

비지도 강화학습(URLVR)은 LLM 학습을 어디까지 확장할 수 있는가?

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드