핵심 요약
검증 가능한 보상(RLVR) 기반의 강화학습은 초기 성공 확률이 낮을 때 학습이 정체되는 '콜드 스타트' 문제를 겪는다. 이 논문은 Tsallis q-logarithm을 활용해 강화학습과 지도 학습 사이를 매끄럽게 연결함으로써, 초기 학습 속도를 획기적으로 높이고 노이즈에 강한 추론 모델을 만드는 새로운 방법론을 제시한다.
왜 중요한가
검증 가능한 보상(RLVR) 기반의 강화학습은 초기 성공 확률이 낮을 때 학습이 정체되는 '콜드 스타트' 문제를 겪는다. 이 논문은 Tsallis q-logarithm을 활용해 강화학습과 지도 학습 사이를 매끄럽게 연결함으로써, 초기 학습 속도를 획기적으로 높이고 노이즈에 강한 추론 모델을 만드는 새로운 방법론을 제시한다.
핵심 기여
Tsallis JQ 손실 함수 연속체 정의
강화학습 기반의 exploitation(q=0)과 로그 가능도 극대화 기반의 density estimation(q=1) 사이를 보간하는 단일 파라미터 q 기반의 손실 함수 군을 정의했다.
인스턴스별 그래디언트 증폭 메커니즘 규명
모든 JQ 멤버가 동일한 그래디언트 방향을 공유하지만, 성공 확률이 낮은 예제에 대해 Pθ^-q 배만큼 그래디언트를 증폭시켜 콜드 스타트 정체를 해결하는 원리를 수학적으로 증명했다.
GARL 및 PAFT 추정기 개발
그래디언트의 두 가지 인수분해 방식을 통해 사전 확률 분포에서 샘플링하여 증폭하는 GARL과 사후 확률 분포에서 샘플링하여 감쇄시키는 PAFT라는 두 가지 몬테카를로 추정기를 제안했다.
콜드 스타트 탈출 속도의 이론적 분리
Exploitation pole(q=0)은 탈출에 Ω(1/p0) 시간이 걸리는 반면, Density estimation pole(q=1)은 Θ(log(1/p0)) 시간 만에 탈출 가능함을 입증했다.
핵심 아이디어 이해하기
기존의 강화학습(RLVR)은 정답을 맞혔을 때만 신호를 얻는 Gradient Descent 방식에 의존하므로, 초기 모델이 정답을 거의 맞히지 못하는 '콜드 스타트' 상황에서는 가중치 갱신을 위한 신호 자체가 발생하지 않아 학습이 멈춘다. 이는 성공 확률 p0에 반비례하는 시간 동안 모델이 정체되는 결과를 초래한다.
이 논문은 Tsallis q-logarithm을 도입하여 손실 함수의 형태를 변형함으로써, 모델이 아직 잘 모르는(성공 확률이 낮은) 예제에 대해 그래디언트의 크기를 선택적으로 키우는 '그래디언트 증폭'을 수행한다. 이는 마치 학습률을 예제마다 다르게 설정하는 것과 유사한 효과를 내어, 정답 근처에도 가지 못하던 모델이 빠르게 유의미한 궤적을 찾도록 유도한다.
결과적으로 q 값을 조절함에 따라 모델은 정답 궤적을 빠르게 찾아내는 능력(Ambiguity resolution)과 잘못된 정답 노이즈를 걸러내는 능력(Noise robustness) 사이의 균형을 잡을 수 있게 된다. 이는 단순히 학습률을 높이는 것과는 달리, 모델이 확신하지 못하는 데이터에만 집중적으로 에너지를 쏟게 만드는 원리이다.
방법론
전체 접근 방식은 Tsallis q-logarithm을 이용해 손실 함수 ℓq = (1 - Pθ^(1-q)) / (1-q)를 정의하는 것이다. 여기서 Pθ는 모델이 정답을 생성할 확률을 의미한다. q=0일 때는 표준적인 강화학습 손실이 되고, q=1로 갈수록 로그 가능도 손실에 가까워진다.
핵심 메커니즘인 그래디언트 증폭은 ∇θℓq = Pθ^-q ∇θℓ0 수식으로 표현된다. [성공 확률 Pθ와 기본 RL 그래디언트 ∇θℓ0를 입력으로] → [Pθ의 -q 제곱만큼 그래디언트에 곱하는 연산을 수행해] → [증폭된 그래디언트를 얻고] → [이 값이 작을수록, 즉 성공 확률이 낮을수록 더 큰 보폭으로 가중치를 수정하게 된다]는 의미이다.
학습 구현을 위해 두 가지 추정기를 사용한다. GARL은 사전 분포 pθ(z|x)에서 샘플링한 후 (w_bar)^-q로 그래디언트를 키우며, PAFT는 사후 분포 pθ(z|x,y)에서 중요도 샘플링을 수행한 후 (w_bar)^(1-q)로 감쇄시킨다. 두 방법 모두 동일한 편향(bias)을 가지지만, GARL은 분산이 낮고 PAFT는 의미적으로 일관된 그래디언트를 생성하는 특징이 있다.
주요 결과
FinQA, HotPotQA, MuSiQue 데이터셋을 이용한 콜드 스타트 실험에서, 기존 GRPO와 q≤0.5인 설정은 모두 학습에 실패(정확도 0)했으나, q=0.75 설정의 GARL은 FinQA에서 maj@16 기준 38.3%를 기록하며 성공적으로 탈출했다.
웜 스타트(Warm-start) 환경에서는 GARL과 PAFT가 GRPO 대비 우수한 성능을 보였다. 특히 HotPotQA에서 PAFT(q=0.75)는 47.9 maj@16을 기록하여 GRPO(33.5) 대비 +14.4점의 성능 향상을 달성했다.
학습 안정성 분석 결과, GARL은 특정 데이터셋(HotPotQA, MuSiQue)에서 학습 도중 성능이 급격히 하락하는 붕괴 현상을 보였으나, PAFT는 모든 벤치마크에서 안정적인 학습 곡선을 유지하며 최종적으로 더 높은 성능에 도달했다.
관련 Figure

q=1은 즉시, q=0.75는 약 35단계 부근에서 급격히 보상을 획득하며 콜드 스타트를 탈출하는 반면, q≤0.5인 경우 학습 종료 시까지 보상을 얻지 못함을 보여준다. 이는 이론적으로 제시한 q 값에 따른 탈출 속도 차이를 실험적으로 증명한다.
FinQA 데이터셋의 콜드 스타트 환경에서 q 값에 따른 학습 단계별 최대 증폭 이익 변화 그래프

GARL은 학습 초기 성능이 상승하다가 100단계 이후 급격히 0으로 추락하는 붕괴 현상을 보이지만, PAFT는 꾸준히 성능이 상승하여 안정적으로 높은 정확도에 도달함을 시각화한다. 이는 웜 스타트 환경에서 PAFT의 안정성을 입증하는 핵심 근거이다.
HotPotQA 검증 셋에서 PAFT와 GARL(q=0.25)의 maj@16 성능 추이 비교
기술 상세
JQ 손실 함수는 Tsallis 통계학에서 유래한 q-logarithm을 기반으로 하며, 이는 지수 분포족의 일반화된 형태를 제공한다. q 파라미터는 모델의 '전념(Commitment)' 정도를 결정하며, q < 1 영역에서는 손실 함수가 유계(bounded)되어 레이블 노이즈에 대한 강건성을 제공한다.
수학적으로 ∇θℓq는 RL 말단(∇θℓ0)과 FT 말단(∇θℓ1) 사이의 이중성을 가진다. GARL 추정기는 IWAE(Importance Weighted Autoencoder) 그래디언트 추정기를 일반화한 형태이며, q=1일 때 IWAE와 일치한다. PAFT는 EM 알고리즘의 E-step을 일반화하여 사후 확률 분포에 기반한 SFT 형태를 취한다.
이론적 분석에 따르면, 그래디언트 플로우 하에서 성공 확률 p의 변화율은 p_dot = p^(2-q)||s||^2으로 정의된다. 여기서 지수 2-q가 콜드 스타트 탈출 속도를 결정하는 핵심 요소이며, q가 1에 가까울수록 p0가 매우 작은 초기 단계에서 지수적인 속도 향상을 얻을 수 있음을 증명했다.
한계점
본 연구는 Qwen 3 0.6B라는 단일 규모의 모델에서만 검증되었으며, 더 큰 규모의 모델에서도 동일한 학습 붕괴나 안정성 경향이 나타나는지는 추가 확인이 필요하다. 또한 exact-match 보상 환경을 가정하고 있어 일반적인 보상 함수로의 확장은 향후 과제로 남아있다.
실무 활용
추론 모델 학습 시 초기 데이터가 부족하거나 모델의 초기 성능이 낮아 강화학습이 진행되지 않는 상황에서 즉시 적용 가능한 안정적인 학습 프레임워크이다.
- 복잡한 수학/논리 추론 데이터셋에서 초기 SFT 데이터 없이 강화학습을 시작해야 하는 경우
- 정답 노이즈가 포함된 데이터셋에서 모델의 과적합을 방지하면서 학습 속도를 높이고 싶을 때
- GRPO 등 기존 강화학습 알고리즘이 특정 태스크에서 학습 붕괴를 일으킬 때의 대안
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.