TL;DR
강화학습에서 verifiable rewards의 희소성으로 인한 탐험 문제를 완화하기 위해 언어 피드백을 이용한 학습이 제시된다. SDPO 등의 기존 방법은 피드백 해석의 고정된 교사에 의존하는 한계를 가진다. 본 논문은 교사와 학생을 함께 진화시키는 Variational EM 프레임워크를 도입하고, 동적 신뢰 영역으로 교사 업데이트를 제한하여 토큰 수준의 풍부한 피드백 신호를 지속적으로 활용한다. 이로써 코드 생성, 과학 추론, 수학적 문제 해결 등 다양한 도메인에서 RLVR 및 기존 자기-증류 baselines를 일관되게 능가한다.
왜 중요한가
강화학습에서 verifiable rewards의 희소성으로 인한 탐험 문제를 완화하기 위해 언어 피드백을 이용한 학습이 제시된다. SDPO 등의 기존 방법은 피드백 해석의 고정된 교사에 의존하는 한계를 가진다. 본 논문은 교사와 학생을 함께 진화시키는 Variational EM 프레임워크를 도입하고, 동적 신뢰 영역으로 교사 업데이트를 제한하여 토큰 수준의 풍부한 피드백 신호를 지속적으로 활용한다. 이로써 코드 생성, 과학 추론, 수학적 문제 해결 등 다양한 도메인에서 RLVR 및 기존 자기-증류 baselines를 일관되게 능가한다.
핵심 기여
Variational EM formulation for language-feedback learning
언어 피드백을 이용한 학습을 Variational EM 문제로 정식화하고, 교사 qϕ(y|x,C)와 학생 πθ(y|x)의 교대 최적화를 통해 목표 분포 π∗를 근사한다. ELBO를 이용해 증거 하한을 얻고, 교사-학생 간의 공동 진화를 수학적으로 정당화한다.
Dynamic E-step with unpaired preference optimization
E-step에서 교사를 동적으로 조정하며, dynamic reference prior를 학생 정책 πθ로 설정하고, unpaired preference optimization(BCE 기반)으로 교사의 평가를 학습한다. 이는 교사가 피드백 C를 바탕으로 성공/실패 궤적을 구분하는 능력을 지속적으로 개선하도록 한다.
Shared-weight co-evolutionary architecture
교사와 학생을 단일 공유 가중치 네트워크 θ=ϕ로 구현해 메모리 오버헤드를 제거하고, 피드백 C를 프롬프트에 첨가하는 방식으로 교사를 호출한다. 이는 교사-학생의 동시 업데이트를 가능하게 하되, 학습 안정성을 해치지 않는다.
Comprehensive empirical validation across multiple feedback sources
LiveCodeBench, SciKnowEval, autonomous self-critique 등 세 가지 피드백 소스에서 VPD를 평가하고, RLVR 및 SDPO 기반 Baselines보다 일관되게 우수한 성능을 보인다. 또한 F=5 등의 E-step 빈도 실험과 dynamic priors의 ablation으로 안정성 및 성능 이득을 확인한다.
핵심 아이디어 이해하기
문제 정의: 파생된 토큰 수준의 피드백이 Sparse한 최적화 신호를 보완해야 한다. 기존의 Self-Distillation은 피드백 해석을 고정된 교사가 수행하므로, 학생이 점점 더 복잡한 오류를 수정해도 교사의 진단 능력이 한정적이다. 해결 원리: π∗를 KL-regularized RLVR의 최적 타깃으로 보고, 이를 근사하는 조건부 분포 qϕ(y|x,C)를 도입한다. ELBO 하한을 최대화하는 E-step과, 이 모수화된 교사를 이용해 토큰 단위 KL 발산을 최소화하는 M-step을 번갈아 수행한다. 이때 교사는 동적으로 학생의 현재 정책 πθ로 프라이어를 갱신하는 동적 신뢰 영역을 가지며, 단일 공유 가중치를 활용해 메모리 효율을 유지한다. 결과적으로 교사는 피드백의 정보를 더 잘 해석하고, 학생은 더 정밀하게 학습 신호를 흡수한다. 달라지는 점: 기존의 고정 교사 기반 방법보다 학습 안정성 및 수렴 속도가 개선되며, 다양한 피드백 소스에서 벤치마크를 상회한다.
방법론
전체 접근은 네 가지 단계의 교대 최적화로 구성된다. 먼저 온-policy 롤아웃으로 x에 대해 y를 생성하고, 이에 대한 환경 평가를 통해 r(x,y)와 피드백 C를 얻는다. 그다음 E-step에서 교사 qϕ(y|x,C)를 업데이트한다. 이때 dynamic prior를 πθ로 설정하고, implicit reward r̃ϕ를 계산한 뒤 Binary Classifier Optimization(BCE)으로 학습한다. 구체적으로 r̃ϕ(x,y,C) = β log qϕ(y|x,C) / πref(y|x) + β log Z(x) 이다. M-step에서는 고정된 교사로부터의 분포를 학생의 파라미터 θ로 투영하기 위해 LM-step = E[x∼D,y∼πθ] Σt DKL(πθ(yt|x,y<t) ∥ sg[qϕ(yt|x,C,y<t)])를 최소화한다. ϕ와 θ는 실무적으로는 동일 네트워크의 다른 맥락에서 작동한다. 가중치 공유 구조를 통해 메모리 비용을 낮추고, 교사 업데이트와 학생 업데이트를 비대칭 빈도로 수행한다(F=5). E-step 업데이트의 기저는 log Zdyn(x) = F(qϕ) + DKL(qϕ∥πdyn∗)이고, F(qϕ) = (1/β) E[r(x,y)] − DKL(qϕ∥πθ)이며 이를 통해 E-step의 수학적 개선이 보장된다. 알고리즘 요약: 온-policy 롤아웃 → 환경 critique → E-step(교사 Refinement) → M-step(학생 Distillation) → 반복.
관련 Figure

Base 모델에서의 학습 곡선을 통해 VPD의 안정성이 SDPO보다 향상되나, GRPO에 비해 최종 성능이 낮은 한계를 확인할 수 있다. 교사-학생 동시 학습의 비대칭 업데이트가 안전하게 작동함을 보여준다.
Qwen3-4B Base Material: Base 모델에서의 VPD와 비교 Baseline 비교

동적 prior가 학습 안정성을 유지하는 반면 고정 prior는 학습이 불안정해지는 경향을 보여준다. 교사의 dynamic constraint가 M-step의 학습 효율을 높이는 기여를 시각적으로 뒷받침한다.
Base Biology Ablation: Dynamic vs Fixed Prior 비교
주요 결과
주요 벤치마크에서 VPD의 성능이 우수하다. LiveCodeBench v6에서 Qwen-3-8B를 사용한 실험에서, GRPO는 28.05%의 합격률, SDPO는 47.33%인 반면 VPD는 49.62%를 달성했다. SciKnowEval 벤치마크에서 자동 self-distillation 없이도 AGG 평균에서 Qwen-3-1.7B 모델의 성능은 GRPO 69.81% 대비 74.34%로 개선되었고, Qwen-3-8B는 SDPO 74.44% 대비 77.15%로 상승했다. Autonomous self-critique 설정에서도 Qwen-3-8B에서 SDPO 74.87%에 비해 VPD가 78.14%로 향상되었다. Math500 및 AIME/AIM 23 등의 수치에서는 GRPO가 최상위 성능을 보이는 경우도 있으나(VPD가 특정 수치에서 열세인 경우가 있음), VPD는 Cold-start 시나리오나 수학적 추론 도메인에서 학습 붕괴를 크게 지연시키고 안정성을 크게 향상시키는 경향을 보인다. ablation 결과에서 E-step 업데이트 빈도(F)와 dynamic prior의 중요성을 확인하였고, F=5가 최적의 트러스트 영역을 제공한다. 고정 프라이어(Fixed Prior) 대비 Dynamic Prior가 성능 및 안정성에 큰 차이를 보인다. 계산 효율성 측면에서 VPD는 공유 가중치 구조를 통해 메모리 비용을 줄이고, E-step이 추가적으로 들지만 비대칭 업데이트로 총 런타임 증가를 30-55% 수준으로 관리한다. 수학적 추론 실험에서 GRPO는 83.8%의 Math500 성능을 기록했으나, VPD는 수학 문제의 엄격성으로 인해 여전히 순수 sparse RL보다 열세인 경향이 있으며, 이는 구조적 한계로 해석된다.
관련 Figure

Figure 1의 결과는 VPD의 E-step이 교사의 차이를 점진적으로 증가시키고, 토큰 수준의 피드백으로부터 더 나은 학습 신호를 얻도록 교사-학생 간의 차이를 확장한다는 것을 시사한다. 이는 교사가 성공/실패 궤적을 더 잘 구분하도록 학습되었음을 보여준다.
Qwen3-8B LCB Reward Margin: VPD가 SDPO 대비 보상 마진을 지속적으로 증가시키며 학습 신호의 품질이 향상됨

해당 도메인에서 VPD의 성능은 GRPO 및 SDPO를 상회하며, 학습 안정성도 함께 개선된다. Subtask별 차이가 존재하나 평균적으로 개선된 것을 확인된다.
Qwen3-8B Biology Acc: Biology 하위태스크에서 VPD가 다른 baselines를 상회

수학 도메인에서 GRPO가 강점으로 나타나지만, VPD 역시 붕괴를 지연시키며 비교적 안정적 학습 곡선을 보여준다. 수학적 증명의 엄격성으로 인해 여전히 순수 RL이 때때로 우수하다는 점을 시사한다.
Qwen3-8B-MATH500: 수학 문제에서의 성능 곡선

AIME/AMC 계열 벤치마크에서의 성능 곡선을 제시하며 VPD의 수학 도메인 적응력을 확인한다. GRPO가 여전히 강한 경우도 있지만, VPD의 붕괴 지연과 안정성은 분명한 이점이다.
Qwen3-8B-AIME24: 수학 경합 벤치마크에서의 성능
기술 상세
아키텍처: 교사 qϕ(y|x,C)와 학생 πθ(y|x)를 동일 네트워크의 공유 가중치로 구현하되, 교사는 피드백 C를 추가로 인입하는 컨텍스트로 작동한다. 학습 목표는 J(π) = E_y∼π[r(x,y)] − β DKL(π(·|x) ∥ πref(·|x))의 KL-정규화된 RLVR이며, π∗(y|x) = (1/Z(x)) πref(y|x) exp( r(x,y)/β )의 형태로 표현된다. 이때 ELBO를 통해 log Z(x)를 근사하고, qϕ를 통해 DKL(qϕ ∥ π∗)를 최소화하는 E-step을 수행한다. E-step은 Binary Classifier Optimization(BCO)으로 무쌍 선호(max-pair) 대신 비쌍 학습으로 대체한다. rϕ(x,y,C) = β log qϕ(y|x,C)/πref(y|x) + β log Z(x)이며, dynamic prior는 πθ(y|x)를 기준으로 설정되어 교사의 업데이트를 학생의 학습 범위에 가깝게 유지한다. M-step은 LM-step(= Ex∼D,y∼πθ) Σt DKL(πθ(yt|x,y<t) ∥ sg[qϕ(yt|x,C,y<t)])를 최소화한다. 학습 루프는 4단계: 롤아웃 수집, 환경 Critique, E-step(교사 Refinement), M-step(학생 Distillation)이며, 사전-가중치 공유 구조 덕분에 메모리 비용이 크게 감소한다. 이론적으로는 Generalized EM 보장을 갖고, 비정확한 업데이트는 허용되지만 각 스텝의 목표를 지나치게 벗어나지 않도록 트러스트 영역이 작동한다.
한계점
수학적 추론 및 base 모델의 cold-start 설정에서 VPD가 순수 GRPO에 비해 항상 우수하지는 않다. unstructured한 텍스트 피드백은 엄격한 논리 도메인에서 여전히 한계가 있으며, 교사와 학생 간의 공동 진화가 항상 최적의 성능으로 귀결되지는 않는다. 또한 ϕ=θ로 구현된 공유 가중치 구조는 교사의 표현 능력을 제약할 수 있어, 더 큰 모델이나 도메인에서의 성능 향상을 위해서는 부분적 분리화가 필요할 수 있다.
실무 활용
언어 피드백 기반의 학습에서 교사-학생의 공동 최적화를 통해 토큰 수준의 피드백 신호를 활용하는 VPD의 실무적 가능성을 보여준다. 대규모 LLM 시스템에서 피드백 비용을 줄이고 학습 안정성을 높이며, 코드 작성, 과학 추론, 수학적 문제 해결 등 다양한 도메인에서 적용 가능하다.
- 코드 생성 및 디버깅에서 컴파일러 피드백을 이용한 정책 개선
- 과학 문제해결에서 자동 피드백을 통한 토론형 학습 강화
- 수학적 추론에서 형식적 증명에 대한 피드백을 반영한 반복 학습
- 대형 언어 모델의 온-정책 RLVR 학습에서 피드백 기반 강화 학습의 안정성 확보
코드 공개 여부: 미확인
키워드
추가 이미지 분석

F=5가 최적의 트러스트 영역을 제공한다는 ablation 결과를 시각적으로 보여준다. F가 너무 작으면 목표 분포가 불안정하고, 너무 크면 목표가 오래 유지되어 학습이 둔화될 수 있음을 시사한다.
Biology Ablation Reference: E-step의 업데이트 빈도(F) 영향

Chemistry 도메인에서의 ablation 차이를 요약한다. Dynamic prior의 효과를 도메인 전반에서 확인하며, E-step 빈도와 피드백 신호의 질에 따른 성능 차이를 보여준다.
Chemistry Ablation Reference: 화학 도메인 Ablaation
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.