TL;DR
RLVR은 응답 수준의 보상으로 학습이 이뤄지나 토큰 차원의 확률 변화는 불투명하다. 표준 시퀀스-레벨 RLVR은 양측 중심을 평균으로 만들어 공통 패턴에 의해 구별력이 약해질 수 있다. DelTA는 토큰 그래디언트 방향의 구별 신호를 강화해 희소하지만 주목할 만한 방향을 더 잘 살리는 토큰 가중치를 학습에 반영한다.
왜 중요한가
RLVR은 응답 수준의 보상으로 학습이 이뤄지나 토큰 차원의 확률 변화는 불투명하다. 표준 시퀀스-레벨 RLVR은 양측 중심을 평균으로 만들어 공통 패턴에 의해 구별력이 약해질 수 있다. DelTA는 토큰 그래디언트 방향의 구별 신호를 강화해 희소하지만 주목할 만한 방향을 더 잘 살리는 토큰 가중치를 학습에 반영한다.
핵심 기여
로컬 디스크리미네이터 뷰 제시
시퀀스 수준 RLVR 업데이트가 토큰-gradient 벡터에 대해 선형 디스크리미네이터 역할을 하며, 양측의 중심 벡터 µ¯+ 및 µ¯−로 구성된 참조 방향에 따라 후보 토큰의 로그-확률 증가 여부를 결정한다.
DelTA의 discriminative token-score α_i,t 도입
양성/음성 측의 중심에 대한 거리를 이용한 엔트로피 정규화 할당 문제를 통해 토큰-gradient 방향이 자신의 측에 더 잘 부합하는지를 판단하는 α_i,t를 추정하고, 이를 통해 중심 벡터를 재가중한다.
토큰 가중치를 활용한 중심 재정의
α_i,t를 바탕으로 μ^(k+1)_{+} 및 μ^(k+1)_{−}를 가중 중심으로 업데이트하여 공유되기 쉬운 방향보다 자기 측을 더 구분하는 방향으로 사이드 중심을 조정한다.
자기-정규화 RLVR 대리손실 도입
최종 α⋆_i,t를 λ_i,t = λ_min + (λ_max − λ_min) α⋆_i,t로 매핑하고, 이를 이용해 J_DelTA(θ) = E[...]의 토큰 가중치를 재조정한 self-normalized DAPO 유사 손실로 업데이트 방향을 다시 형성한다.
일관된 벤치마크 성능 및 일반화
7개 수학 벤치마크에서 Qwen3-8B-Base/14B-Base 각각에서 동일 규모의 강력한 베이스라인을 상회하며, 평균 점수는 8B에서 3.26p, 14B에서 2.62p의 향상을 기록한다. 코드 생성 및 OOD 평가에서도 일반화되며 GitHub 코드가 공개되어 있다.
핵심 아이디어 이해하기
RLVR 업데이트 방향은 토큰-gradient 벡터의 선형 판별기로 해석될 수 있다. 기존의 양측 중심은 내부적으로 잘 요약되지만, 두 사이의 구분자를 형성하는 데 필요한 외부 구분력은 충분히 크지 않을 수 있다. DelTA는 토큰-gradient 벡터들에 대해 자신의 측에서 더 대표적인 방향일수록 큰 가중치를 주고, 공유되거나 약하게 구별적인 방향은 작게 만들어 두 사이의 중심 차이를 더 뚜렷하게 한다. 이와 같은 재가중은 두 중심의 차이를 강화해 업데이트 방향을 더 구체적으로 토큰 차원에 반영한다. 실험적으로 7개 수학 벤치마크에서 동일 규모의 베이스라인보다 향상된 성능을 보이며, 코드 생성 및 OOD 평가에서도 일반화가 확인된다. DelTA의 마지막 출력은 λ_i,t가 0에서 1 사이의 Soft 한 할당으로 매핑되고, 이를 통해 DAPO 토큰 평균을 재가중한 self-normalized surrogate로 학습이 진행된다.
관련 Figure

고가중 토큰은 추론-근거를 구성하는 단어들에 집중되며, 저가중 토큰은 배경적/엔터티 특화 토큰이 많다. DelTA가 구별 signal에 집중하도록 토큰 가중치를 조정한다는 점과 일치한다.
고가중 토큰과 저가중 토큰의 워드 클라우드 형태 토큰 분포
방법론
전체 접근 방식: DelTA는 DAPO 기반 RLVR surrogate를 재가중하는 토큰 가중치 학습으로 로컬 디스크리미네이터의 강도를 높인다. 핵심 메커니즘은 다음과 같다. 1) vi,t는 토큰 oi,t의 파라미터-그래디언트를 정의하고, Â_i는 그룹-정규화된 보상이다. 2) 양성/음성 사이드의 총 질량 M+와 M−를 계산하고, μ¯+와 μ¯−를 각 사이드의 가중 평균 방향으로 정의한다. 3) Δ_i,t^+ = ||vi,t − μ¯−||^2 − ||vi,t − μ¯+||^2, Â_i > 0, Δ_i,t^− = ||vi,t − μ¯+||^2 − ||vi,t − μ¯−||^2, Â_i < 0. 4) γ_+와 γ_−를 통해 α_i,t = σ(Δ_i,t^+/γ_+) (Â_i > 0) 또는 α_i,t = σ(Δ_i,t^−/γ_−) (Â_i < 0)로 계산하고, μ¯+와 μ¯−를 α 가중 평균으로 업데이트한다. 5) K번의 stop-gradient refinement를 수행하며 μ^(K){+}와 μ^(K){−}를 얻고 α⋆_i,t를 재계산한다. 6) α⋆_i,t를 λ_i,t = λ_min + (λ_max − λ_min) α⋆_i,t로 매핑하고, λ̄_i,t = λ_i,t / (N Z)로 노멀라이즈한 뒤, J_DelTA(θ)를 계산한다. 7) proxy 토큰그래디언트로 layer-restricted gradient를 사용해 vi,t를 근사하고, 전체 정책 파라미터에 대해 최적화한다. 구현은 마지막 레이어 프록시를 사용하고, K의 최적값은 1로 설정하는 것이 실험적으로 가장 안정적이었다.
관련 Figure

토큰-gradient 방향에 대한 DelTA의 재가중과 사이드 중심의 조정이 어떻게 업데이트 방향을 형성하는지 직관적으로 보여준다.
DelTA 개요를 시각화한 도식으로 토큰-gradient 벡터와 사이드 중심 업데이트 흐름을 연결한다
주요 결과
메인 벤치마크 결과: Qwen3-8B-Base에서 DelTA의 평균 점수는 28.40으로, DAPO(22.95) 및 SAPO(25.14) 대비 상승했다. 같은 규모의 strongest baseline 대비 평균 차이는 3.26 포인트에 달한다. Qwen3-14B-Base에서 DelTA의 평균 점수는 39.91로, DAPO(35.09), SAPO(35.94), FIPO(37.29) 대비 우수하며 strongest baseline 대비 2.62 포인트의 증가이다. 7개 수학 벤치마크(AIME24/25/26, HMMT25/Nov, HMMT26, Brumo25)에서 DelTA는 각 벤치마크에서 최고 성능을 기록한다.
관련 Figure

DelTA가 보상 증가 경향을 유지하는 반면, 응답길이와 엔트로피를 더 안정적으로 관리하는 경향을 확인할 수 있다. 이는 더 긴 추론 경로에서도 성능이 유지되는 것을 시사한다.
학습 다이나믹스 그래프(보상/응답길이/엔트로피)로 DelTA와 DAPO의 차이를 보여준다
기술 상세
아키텍처: critic-free GRPO/DAPO 계열 RLVR에서의 토큰 수렴을 분석하고, DelTA가 토큰Gradient 가중치를 조정해 두 사이의 중심 벡터를 더 구분적으로 만들도록 설계되었다. 핵심 수식은 ∆log π(x|c) ∝ ∇θ log πθ(x|c)ᵀ [µ¯+ M+ − µ¯− M−], 양측의 중심 µ¯+, µ¯−는 각각 양성/음성 사이드의 토큰-그래디언트의 가중 평균으로 정의된다. DelTA는 α_i,t를 통해 각 토큰의 discriminative 신호를 추정하고, μ¯+, μ¯−를 α로 재가중한 후, λ_i,t를 통해 J_DelTA를 구성한다. 마지막으로 λ_i,t를 λ̄_i,t로 정규화하여 기존 DAPO의 토큰 평균에 적용한다. layer-restricted token-gradient proxy로 vi,t를 근사하여 대규모 모델에 적용 가능하게 구현한다. 또한, λ_i,t의 초기 추정은 μ^(0){+}, μ^(0){−}에서 시작하며, K 단계의 추정으로 개선한다. 실험에서 λ_min=0.8, λ_max=1.2, K=1이 가장 안정적이다.
실무 활용
수치 기반 토큰 가중치 재조정을 통해 RLVR의 토큰 크레딧 할당을 구분적으로 만들고, 평가에서 긴 추론 흐름 및 안정성을 향상한다.
- 수학·논리 문제의 자동화된 강화학습에서 정답 확률 분포를 더 민감하게 조정
- 코드 생성 또는 정답 검증이 가능한 도메인에서 RLVR의 효율성 향상
- 다양한 백본에서의 일반화 성능 개선 실험에 활용
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.