언어 피드백을 활용한 Variational Policy Distillation

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

강화학습에서 verifiable rewards의 희소성으로 인한 탐험 문제를 완화하기 위해 언어 피드백을 이용한 학습이 제시된다. SDPO 등의 기존 방법은 피드백 해석의 고정된 교사에 의존하는 한계를 가진다. 본 논문은 교사와 학생을 함께 진화시키는 Variational EM 프레임워크를 도입하고, 동적 신뢰 영역으로 교사 업데이트를 제한하여 토큰 수준의 풍부한 피드백 신호를 지속적으로 활용한다. 이로써 코드 생성, 과학 추론, 수학적 문제 해결 등 다양한 도메인에서 RLVR 및 기존 자기-증류 baselines를 일관되게 능가한다.

왜 중요한가

핵심 기여

Variational EM formulation for language-feedback learning

언어 피드백을 이용한 학습을 Variational EM 문제로 정식화하고, 교사 qϕ(y|x,C)와 학생 πθ(y|x)의 교대 최적화를 통해 목표 분포 π∗를 근사한다. ELBO를 이용해 증거 하한을 얻고, 교사-학생 간의 공동 진화를 수학적으로 정당화한다.

Dynamic E-step with unpaired preference optimization

E-step에서 교사를 동적으로 조정하며, dynamic reference prior를 학생 정책 πθ로 설정하고, unpaired preference optimization(BCE 기반)으로 교사의 평가를 학습한다. 이는 교사가 피드백 C를 바탕으로 성공/실패 궤적을 구분하는 능력을 지속적으로 개선하도록 한다.

Shared-weight co-evolutionary architecture

교사와 학생을 단일 공유 가중치 네트워크 θ=ϕ로 구현해 메모리 오버헤드를 제거하고, 피드백 C를 프롬프트에 첨가하는 방식으로 교사를 호출한다. 이는 교사-학생의 동시 업데이트를 가능하게 하되, 학습 안정성을 해치지 않는다.

Comprehensive empirical validation across multiple feedback sources

LiveCodeBench, SciKnowEval, autonomous self-critique 등 세 가지 피드백 소스에서 VPD를 평가하고, RLVR 및 SDPO 기반 Baselines보다 일관되게 우수한 성능을 보인다. 또한 F=5 등의 E-step 빈도 실험과 dynamic priors의 ablation으로 안정성 및 성능 이득을 확인한다.

핵심 아이디어 이해하기

문제 정의: 파생된 토큰 수준의 피드백이 Sparse한 최적화 신호를 보완해야 한다. 기존의 Self-Distillation은 피드백 해석을 고정된 교사가 수행하므로, 학생이 점점 더 복잡한 오류를 수정해도 교사의 진단 능력이 한정적이다. 해결 원리: π∗를 KL-regularized RLVR의 최적 타깃으로 보고, 이를 근사하는 조건부 분포 qϕ(y|x,C)를 도입한다. ELBO 하한을 최대화하는 E-step과, 이 모수화된 교사를 이용해 토큰 단위 KL 발산을 최소화하는 M-step을 번갈아 수행한다. 이때 교사는 동적으로 학생의 현재 정책 πθ로 프라이어를 갱신하는 동적 신뢰 영역을 가지며, 단일 공유 가중치를 활용해 메모리 효율을 유지한다. 결과적으로 교사는 피드백의 정보를 더 잘 해석하고, 학생은 더 정밀하게 학습 신호를 흡수한다. 달라지는 점: 기존의 고정 교사 기반 방법보다 학습 안정성 및 수렴 속도가 개선되며, 다양한 피드백 소스에서 벤치마크를 상회한다.

방법론

전체 접근은 네 가지 단계의 교대 최적화로 구성된다. 먼저 온-policy 롤아웃으로 x에 대해 y를 생성하고, 이에 대한 환경 평가를 통해 r(x,y)와 피드백 C를 얻는다. 그다음 E-step에서 교사 qϕ(y|x,C)를 업데이트한다. 이때 dynamic prior를 πθ로 설정하고, implicit reward r̃ϕ를 계산한 뒤 Binary Classifier Optimization(BCE)으로 학습한다. 구체적으로 r̃ϕ(x,y,C) = β log qϕ(y|x,C) / πref(y|x) + β log Z(x) 이다. M-step에서는 고정된 교사로부터의 분포를 학생의 파라미터 θ로 투영하기 위해 LM-step = E[x∼D,y∼πθ] Σt DKL(πθ(yt|x,y<t) ∥ sg[qϕ(yt|x,C,y<t)])를 최소화한다. ϕ와 θ는 실무적으로는 동일 네트워크의 다른 맥락에서 작동한다. 가중치 공유 구조를 통해 메모리 비용을 낮추고, 교사 업데이트와 학생 업데이트를 비대칭 빈도로 수행한다(F=5). E-step 업데이트의 기저는 log Zdyn(x) = F(qϕ) + DKL(qϕ∥πdyn∗)이고, F(qϕ) = (1/β) E[r(x,y)] − DKL(qϕ∥πθ)이며 이를 통해 E-step의 수학적 개선이 보장된다. 알고리즘 요약: 온-policy 롤아웃 → 환경 critique → E-step(교사 Refinement) → M-step(학생 Distillation) → 반복.

주요 결과

주요 벤치마크에서 VPD의 성능이 우수하다. LiveCodeBench v6에서 Qwen-3-8B를 사용한 실험에서, GRPO는 28.05%의 합격률, SDPO는 47.33%인 반면 VPD는 49.62%를 달성했다. SciKnowEval 벤치마크에서 자동 self-distillation 없이도 AGG 평균에서 Qwen-3-1.7B 모델의 성능은 GRPO 69.81% 대비 74.34%로 개선되었고, Qwen-3-8B는 SDPO 74.44% 대비 77.15%로 상승했다. Autonomous self-critique 설정에서도 Qwen-3-8B에서 SDPO 74.87%에 비해 VPD가 78.14%로 향상되었다. Math500 및 AIME/AIM 23 등의 수치에서는 GRPO가 최상위 성능을 보이는 경우도 있으나(VPD가 특정 수치에서 열세인 경우가 있음), VPD는 Cold-start 시나리오나 수학적 추론 도메인에서 학습 붕괴를 크게 지연시키고 안정성을 크게 향상시키는 경향을 보인다. ablation 결과에서 E-step 업데이트 빈도(F)와 dynamic prior의 중요성을 확인하였고, F=5가 최적의 트러스트 영역을 제공한다. 고정 프라이어(Fixed Prior) 대비 Dynamic Prior가 성능 및 안정성에 큰 차이를 보인다. 계산 효율성 측면에서 VPD는 공유 가중치 구조를 통해 메모리 비용을 줄이고, E-step이 추가적으로 들지만 비대칭 업데이트로 총 런타임 증가를 30-55% 수준으로 관리한다. 수학적 추론 실험에서 GRPO는 83.8%의 Math500 성능을 기록했으나, VPD는 수학 문제의 엄격성으로 인해 여전히 순수 sparse RL보다 열세인 경향이 있으며, 이는 구조적 한계로 해석된다.

기술 상세

아키텍처: 교사 qϕ(y|x,C)와 학생 πθ(y|x)를 동일 네트워크의 공유 가중치로 구현하되, 교사는 피드백 C를 추가로 인입하는 컨텍스트로 작동한다. 학습 목표는 J(π) = E_y∼π[r(x,y)] − β DKL(π(·|x) ∥ πref(·|x))의 KL-정규화된 RLVR이며, π∗(y|x) = (1/Z(x)) πref(y|x) exp( r(x,y)/β )의 형태로 표현된다. 이때 ELBO를 통해 log Z(x)를 근사하고, qϕ를 통해 DKL(qϕ ∥ π∗)를 최소화하는 E-step을 수행한다. E-step은 Binary Classifier Optimization(BCO)으로 무쌍 선호(max-pair) 대신 비쌍 학습으로 대체한다. rϕ(x,y,C) = β log qϕ(y|x,C)/πref(y|x) + β log Z(x)이며, dynamic prior는 πθ(y|x)를 기준으로 설정되어 교사의 업데이트를 학생의 학습 범위에 가깝게 유지한다. M-step은 LM-step(= Ex∼D,y∼πθ) Σt DKL(πθ(yt|x,y<t) ∥ sg[qϕ(yt|x,C,y<t)])를 최소화한다. 학습 루프는 4단계: 롤아웃 수집, 환경 Critique, E-step(교사 Refinement), M-step(학생 Distillation)이며, 사전-가중치 공유 구조 덕분에 메모리 비용이 크게 감소한다. 이론적으로는 Generalized EM 보장을 갖고, 비정확한 업데이트는 허용되지만 각 스텝의 목표를 지나치게 벗어나지 않도록 트러스트 영역이 작동한다.

한계점

수학적 추론 및 base 모델의 cold-start 설정에서 VPD가 순수 GRPO에 비해 항상 우수하지는 않다. unstructured한 텍스트 피드백은 엄격한 논리 도메인에서 여전히 한계가 있으며, 교사와 학생 간의 공동 진화가 항상 최적의 성능으로 귀결되지는 않는다. 또한 ϕ=θ로 구현된 공유 가중치 구조는 교사의 표현 능력을 제약할 수 있어, 더 큰 모델이나 도메인에서의 성능 향상을 위해서는 부분적 분리화가 필요할 수 있다.

실무 활용

언어 피드백 기반의 학습에서 교사-학생의 공동 최적화를 통해 토큰 수준의 피드백 신호를 활용하는 VPD의 실무적 가능성을 보여준다. 대규모 LLM 시스템에서 피드백 비용을 줄이고 학습 안정성을 높이며, 코드 작성, 과학 추론, 수학적 문제 해결 등 다양한 도메인에서 적용 가능하다.

코드 생성 및 디버깅에서 컴파일러 피드백을 이용한 정책 개선
과학 문제해결에서 자동 피드백을 통한 토론형 학습 강화
수학적 추론에서 형식적 증명에 대한 피드백을 반영한 반복 학습
대형 언어 모델의 온-정책 RLVR 학습에서 피드백 기반 강화 학습의 안정성 확보

코드 공개 여부: 미확인

키워드

RLVRon-policy self-distillationlanguage feedbacktoken-level supervisionvariational EMtrust-regiondense supervisionLiveCodeBenchSciKnowEvalMath500

추가 이미지 분석

Chart
F=5가 최적의 트러스트 영역을 제공한다는 ablation 결과를 시각적으로 보여준다. F가 너무 작으면 목표 분포가 불안정하고, 너무 크면 목표가 오래 유지되어 학습이 둔화될 수 있음을 시사한다.
Biology Ablation Reference: E-step의 업데이트 빈도(F) 영향

Chart
Chemistry 도메인에서의 ablation 차이를 요약한다. Dynamic prior의 효과를 도메인 전반에서 확인하며, E-step 빈도와 피드백 신호의 질에 따른 성능 차이를 보여준다.
Chemistry Ablation Reference: 화학 도메인 Ablaation