DELTA: 검증 가능한 보상에서 강화학습을 위한 구별 가능한 토큰 크레딧 할당

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

RLVR은 응답 수준의 보상으로 학습이 이뤄지나 토큰 차원의 확률 변화는 불투명하다. 표준 시퀀스-레벨 RLVR은 양측 중심을 평균으로 만들어 공통 패턴에 의해 구별력이 약해질 수 있다. DelTA는 토큰 그래디언트 방향의 구별 신호를 강화해 희소하지만 주목할 만한 방향을 더 잘 살리는 토큰 가중치를 학습에 반영한다.

왜 중요한가

RLVR은 응답 수준의 보상으로 학습이 이뤄지나 토큰 차원의 확률 변화는 불투명하다. 표준 시퀀스-레벨 RLVR은 양측 중심을 평균으로 만들어 공통 패턴에 의해 구별력이 약해질 수 있다. DelTA는 토큰 그래디언트 방향의 구별 신호를 강화해 희소하지만 주목할 만한 방향을 더 잘 살리는 토큰 가중치를 학습에 반영한다.

핵심 기여

로컬 디스크리미네이터 뷰 제시

시퀀스 수준 RLVR 업데이트가 토큰-gradient 벡터에 대해 선형 디스크리미네이터 역할을 하며, 양측의 중심 벡터 µ¯+ 및 µ¯−로 구성된 참조 방향에 따라 후보 토큰의 로그-확률 증가 여부를 결정한다.

DelTA의 discriminative token-score α_i,t 도입

양성/음성 측의 중심에 대한 거리를 이용한 엔트로피 정규화 할당 문제를 통해 토큰-gradient 방향이 자신의 측에 더 잘 부합하는지를 판단하는 α_i,t를 추정하고, 이를 통해 중심 벡터를 재가중한다.

토큰 가중치를 활용한 중심 재정의

α_i,t를 바탕으로 μ^(k+1)_{+} 및 μ^(k+1)_{−}를 가중 중심으로 업데이트하여 공유되기 쉬운 방향보다 자기 측을 더 구분하는 방향으로 사이드 중심을 조정한다.

자기-정규화 RLVR 대리손실 도입

최종 α⋆_i,t를 λ_i,t = λ_min + (λ_max − λ_min) α⋆_i,t로 매핑하고, 이를 이용해 J_DelTA(θ) = E[...]의 토큰 가중치를 재조정한 self-normalized DAPO 유사 손실로 업데이트 방향을 다시 형성한다.

일관된 벤치마크 성능 및 일반화

7개 수학 벤치마크에서 Qwen3-8B-Base/14B-Base 각각에서 동일 규모의 강력한 베이스라인을 상회하며, 평균 점수는 8B에서 3.26p, 14B에서 2.62p의 향상을 기록한다. 코드 생성 및 OOD 평가에서도 일반화되며 GitHub 코드가 공개되어 있다.

핵심 아이디어 이해하기

RLVR 업데이트 방향은 토큰-gradient 벡터의 선형 판별기로 해석될 수 있다. 기존의 양측 중심은 내부적으로 잘 요약되지만, 두 사이의 구분자를 형성하는 데 필요한 외부 구분력은 충분히 크지 않을 수 있다. DelTA는 토큰-gradient 벡터들에 대해 자신의 측에서 더 대표적인 방향일수록 큰 가중치를 주고, 공유되거나 약하게 구별적인 방향은 작게 만들어 두 사이의 중심 차이를 더 뚜렷하게 한다. 이와 같은 재가중은 두 중심의 차이를 강화해 업데이트 방향을 더 구체적으로 토큰 차원에 반영한다. 실험적으로 7개 수학 벤치마크에서 동일 규모의 베이스라인보다 향상된 성능을 보이며, 코드 생성 및 OOD 평가에서도 일반화가 확인된다. DelTA의 마지막 출력은 λ_i,t가 0에서 1 사이의 Soft 한 할당으로 매핑되고, 이를 통해 DAPO 토큰 평균을 재가중한 self-normalized surrogate로 학습이 진행된다.

방법론

전체 접근 방식: DelTA는 DAPO 기반 RLVR surrogate를 재가중하는 토큰 가중치 학습으로 로컬 디스크리미네이터의 강도를 높인다. 핵심 메커니즘은 다음과 같다. 1) vi,t는 토큰 oi,t의 파라미터-그래디언트를 정의하고, Â_i는 그룹-정규화된 보상이다. 2) 양성/음성 사이드의 총 질량 M+와 M−를 계산하고, μ¯+와 μ¯−를 각 사이드의 가중 평균 방향으로 정의한다. 3) Δ_i,t^+ = ||vi,t − μ¯−||^2 − ||vi,t − μ¯+||^2, Â_i > 0, Δ_i,t^− = ||vi,t − μ¯+||^2 − ||vi,t − μ¯−||^2, Â_i < 0. 4) γ_+와 γ_−를 통해 α_i,t = σ(Δ_i,t^+/γ_+) (Â_i > 0) 또는 α_i,t = σ(Δ_i,t^−/γ_−) (Â_i < 0)로 계산하고, μ¯+와 μ¯−를 α 가중 평균으로 업데이트한다. 5) K번의 stop-gradient refinement를 수행하며 μ^(K){+}와 μ^(K){−}를 얻고 α⋆_i,t를 재계산한다. 6) α⋆_i,t를 λ_i,t = λ_min + (λ_max − λ_min) α⋆_i,t로 매핑하고, λ̄_i,t = λ_i,t / (N Z)로 노멀라이즈한 뒤, J_DelTA(θ)를 계산한다. 7) proxy 토큰그래디언트로 layer-restricted gradient를 사용해 vi,t를 근사하고, 전체 정책 파라미터에 대해 최적화한다. 구현은 마지막 레이어 프록시를 사용하고, K의 최적값은 1로 설정하는 것이 실험적으로 가장 안정적이었다.

주요 결과

메인 벤치마크 결과: Qwen3-8B-Base에서 DelTA의 평균 점수는 28.40으로, DAPO(22.95) 및 SAPO(25.14) 대비 상승했다. 같은 규모의 strongest baseline 대비 평균 차이는 3.26 포인트에 달한다. Qwen3-14B-Base에서 DelTA의 평균 점수는 39.91로, DAPO(35.09), SAPO(35.94), FIPO(37.29) 대비 우수하며 strongest baseline 대비 2.62 포인트의 증가이다. 7개 수학 벤치마크(AIME24/25/26, HMMT25/Nov, HMMT26, Brumo25)에서 DelTA는 각 벤치마크에서 최고 성능을 기록한다.

기술 상세

아키텍처: critic-free GRPO/DAPO 계열 RLVR에서의 토큰 수렴을 분석하고, DelTA가 토큰Gradient 가중치를 조정해 두 사이의 중심 벡터를 더 구분적으로 만들도록 설계되었다. 핵심 수식은 ∆log π(x|c) ∝ ∇θ log πθ(x|c)ᵀ [µ¯+ M+ − µ¯− M−], 양측의 중심 µ¯+, µ¯−는 각각 양성/음성 사이드의 토큰-그래디언트의 가중 평균으로 정의된다. DelTA는 α_i,t를 통해 각 토큰의 discriminative 신호를 추정하고, μ¯+, μ¯−를 α로 재가중한 후, λ_i,t를 통해 J_DelTA를 구성한다. 마지막으로 λ_i,t를 λ̄_i,t로 정규화하여 기존 DAPO의 토큰 평균에 적용한다. layer-restricted token-gradient proxy로 vi,t를 근사하여 대규모 모델에 적용 가능하게 구현한다. 또한, λ_i,t의 초기 추정은 μ^(0){+}, μ^(0){−}에서 시작하며, K 단계의 추정으로 개선한다. 실험에서 λ_min=0.8, λ_max=1.2, K=1이 가장 안정적이다.

실무 활용

수치 기반 토큰 가중치 재조정을 통해 RLVR의 토큰 크레딧 할당을 구분적으로 만들고, 평가에서 긴 추론 흐름 및 안정성을 향상한다.

수학·논리 문제의 자동화된 강화학습에서 정답 확률 분포를 더 민감하게 조정
코드 생성 또는 정답 검증이 가능한 도메인에서 RLVR의 효율성 향상
다양한 백본에서의 일반화 성능 개선 실험에 활용

코드 공개 여부: 공개

코드 저장소 보기

키워드

RLVR (강화학습에서 검증 가능한 보상)token-gradient-vectors (토큰-그래디언트 벡터)advantage-weighted averaging (advantage 가중 평균)discriminative-token-credit-assignment (구별 토큰 크레딧 할당)self-normalized RLVR surrogate (자기-정규화 RLVR 대리손실)side-wise centroids (사이드 중심)