HolderPO: Hölder mean 기반 토큰-수준 확률 가중치를 이용한 일반화된 정책 최적화 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

고정된 토큰-가중치 집합은 긴 호라이즌 추론에서 신호 밀도 차이에 따라 학습 성능이 불안정해지거나 저효율적으로 수렴한다. HölderPO는 p를 조정해 고밀도 신호에는 집중을, 저밀도 신호에는 분산을 가능하게 하여 학습 신호의 활용과 분산 제어 사이의 균형을 달성한다. 실험적으로 수학 벤치마크에서 평균 54.9%의 최고 성능을 기록하고 ALFWorld에서 93.8%의 성공률을 달성하며, GRPO 대비 상대 성능 개선을 실증한다.

왜 중요한가

고정된 토큰-가중치 집합은 긴 호라이즌 추론에서 신호 밀도 차이에 따라 학습 성능이 불안정해지거나 저효율적으로 수렴한다. HölderPO는 p를 조정해 고밀도 신호에는 집중을, 저밀도 신호에는 분산을 가능하게 하여 학습 신호의 활용과 분산 제어 사이의 균형을 달성한다. 실험적으로 수학 벤치마크에서 평균 54.9%의 최고 성능을 기록하고 ALFWorld에서 93.8%의 성공률을 달성하며, GRPO 대비 상대 성능 개선을 실증한다.

핵심 기여

The HölderPO 프레임워크 제시

토큰 수준 중요도 비율 ri,t(θ)를 Hölder mean ρi,p(θ)로 결합하는 일반화된 Aggregation을 도입하고, p를 통해 집중-분산 트레이드를 조절하는 프레임워크를 제안한다. p = 1은 GRPO, p → 0은 GSPO에 대응한다.

이론적 두측면의 트레이드오프 분석

p의 증가가 gradient concentration을 높이고 분산 bound를 느슨하게 하며, p의 감소가 반대로 작용한다는 두-sided 트레이드오프를 수학적으로 분석한다. 고정된 p로는 양 끝의 이득을 동시에 얻을 수 없음을 확인한다.

동적 p-annealing 알고리즘 구현

학습 진행에 따라 p를 phigh에서 plow로 점진적으로 감소시키는 선형 스케줄링을 도입해 초기에는 강한 신호 증폭, 후반에는 분산 제어를 달성한다.

다양한 벤치마크에서 SOTA 성능

5개 수학 벤치마크에서 평균 54.9%의 최상위 성능, ALFWorld에서 93.8%의 성공률을 달성하며, 기존 GRPO 및 토큰-집계 메커니즘 대비 향상을 보인다.

Qwen3-Base 모델로의 일반화

Qwen3-4B-Base/8B-Base에서 다양한 baselines 대비 향상을 보이며, 모델 규모가 커질수록 HölderPO의 이점이 커진다.

핵심 아이디어 이해하기

기본 아이디어는 토큰-수준 중요도 비율 ri,t(θ)를 하나의 실수 집합으로 묶는 aggregat ion 연산자이다. 기존 GRPO(ρi,1)와 GSPO/GMPO(p→0) 사이의 연속 스펙트럼을 확장해 Hölder mean으로 일반화한다. p를 바꾸면 토큰 가중치 분포가 달라져 gradient가 특정 토큰에 집중되거나(Upward Concentration), 모든 토큰에 균등하게 분산되거나(Balanced), 혹은 낮은 비율의 토큰으로 집중이 반전되는(Downward Concentration) 효과를 낸다. 이로써 긴 시퀀스에서 Sparse한 신호를 더욱 강하게 활용하면서도, 후반에는 분산을 억제해 안정적으로 수렴하는 동적 학습 플로우를 구현한다.

방법론

단계별 구성은 아래와 같다. ① ρi,p(θ) 정의: ρi,p(θ) = (|yi|^{-1} Σ_t ri,t(θ)^p)^{1/p} (p ≠ 0), p = 0인 경우 기하평균으로 취급한다. ② JHs(θ) = E_x,{yi} [ (1/G) Σ_i min(ρi,p(θ) Abi, clip(ρi,p(θ), 1−ε, 1+ε) Abi) ]로 PPO 스타일의 시퀀스 클리핑 objective를 구성한다. ③ 토큰 가중치 Wi,t(p) = ri,t(θ)^p / Σ_k ri,k(θ)^p로 정의해 역전파의 방향과 가중치를 결정한다. ④ 분산에 대한 분석: ∥Var(∇b θJHs)∥ ≤ M^2/B E[Abi^2 ρi,p(θ)^2_i]로, p가 증가할수록 분산이 증가하는 경향이 있음을 보인다. ⑤ 동적 스케줄링: p(0)=phigh, p(T)=plow, p(t1) ≥ p(t2)로 0에서 T까지 비증가형으로 설정하고, 초기에는 높은 p로 신호 증폭, 후반에는 분산 축소를 통해 안정성 확보. ⑥ 실험 설정: 수학 벤치마크(AIME/AMC/MATH/Minerva/Oly./ALFWorld)에서 다양한 모델과 데이터셋으로 평가. phigh, plow의 엔드포인트는 task별로 [−2, 2] 범위를 기본으로 설정하고, Linear Decay가 최적의 성능을 보임.

주요 결과

주요 결과는 다음과 같다. HölderPO의 Linear Des: 2 → −2 구성은 54.9%의 평균 성능을 달성하며, 이는 다섯 수학 벤치마크에서의 SOTA에 해당한다. ALFWorld의 경우 93.8%의 성공률을 기록했다. 7B급 모델에서의 평균 성능은 66.4까지 상승하는 사례도 관찰되었고, Qwen3-4B-Base/8B-Base에서도 각 벤치마크에서 기존 baselines를 능가했다. 바이어스-free 비교에서 dynamic scheduling은 정적 p 설정 대비 전체 평균에서 우수한 성능 향상을 보였다. 토큰 레벨 클리핑을 적용하면 p에 따른 성능 편차가 감소하나, 이는 동적 스케줄의 장점을 약화시킬 수 있다.

기술 상세

A. 개요: HölderPO는 ρi,p(θ)로 토큰-수준 가중치를 일반화하고, JHs(θ)로 PPO 스타일의 시퀀스 클리핑 objective를 구성한다. ρi,p(θ) 정의는 p ≠ 0에서 ( (1/|yi|) Σ ri,t(θ)^p )^{1/p}, p=0은 기하 평균으로 처리한다. ∇θρi,p(θ)는 ρi,p(θ) Σ_t Wi,t(p) ∇θ log πθ(yi,t|x, yi,<t) 이다. Wi,t(p)는 토큰별 가중치 분포를 정의하고, p의 변화에 따라 분포가 변화한다. B) 핵심 메커니즘: 토큰 가중치 Wi,t(p) = ri,t(θ)^p / Σ_k ri,k(θ)^p 이며, p>0은 상위 토큰에 집중, p<0은 하위 토큰으로 집중을 역전시키는 효과를 준다. C) 차별점: 기존 GRPO(GRPO, p=1)와 GSPO/GMPO(p→0)에서 한정되던 고정 p를 넘어, p를 실수 전체 범위로 확장하고 훈련 단계에서 동적으로 조정한다. D) 구현/학습 세부사항: 시퀀스 길이 |yi|, 어드밴티지 Abi, ϵ 클리핑 파라미터 등 PPO 계열의 일반 구현 요소와 함께 Hölder-mean 계산을 로그-스페이스에서 안정적으로 수행한다. E) 이론적 분석: Theorem 1/2/3 및 보충 증명을 통해 p의 증가가 분포 집중과 분산 간의 trade-off를 제시하고, dynamic scheduling이 초기 신호 증폭과 후기 안정화 사이의 균형을 가져오는 것을 보인다.

한계점

스케줄러의 하이퍼파라미터(phigh, plow, decay shape)는 task별 튜닝이 필요하며, 최적의 형태에 대한 이론적 특성은 아직 연구되지 않았다. 또한 positive concentration으로 인해 보상 조작(reward hacking) 위험이 증가할 수 있다(Verifier가 잘못된 신호를 제공하는 경우).

실무 활용

HölderPO는 토큰-수준 가중치의 p-스케일링을 동적으로 조절하는 일반화된 정책 최적화 방법으로, GRPO/GMPO GSPO와 같은 고정 집계보다 다양한 신호 밀도에 적응한다. 동적 p-Annealing은 학습 초기의 강한 신호 증폭과 말기의 안정적인 수렴을 함께 달성한다.

길이가 긴 CoT(Chain-of-Thought) 기반 수학 추론에서 수렴 안정성 확보
ALFWorld와 같은 연속 의사결정 태스크의 장기 추론 안정성 향상
sparse-signal 및 dense-signal를 모두 포함하는 복합 데이터에서의 정책 최적화
수학 벤치마크 외의 복합 문제 해결을 위한 RLHF 기반 학습 흐름 개선

코드 공개 여부: 공개

코드 저장소 보기

키워드

HolderPOHölder meanp-normtoken-level aggregationGRPOALFWorldAIME/MATH