자기 증류형 에이전트 주도 강화학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

다중 턴 LLM 에이전트에서 On-Policy Self-Distillation(OPSD)의 토큰 수준 지도가 유용하더라도, 시퀀스 길이가 늘수록 교정 신호의 불안정성, 그리고 privileged context에 대한 비대칭 신뢰 문제가 심화된다. SDAR은 OPSD를 보조적(auxiliary) 목적으로 한정하고, 토큰 수준에서 게이트를 통해 긍정 신호는 강화하고 부정 신호는 완만하게 억제한다. 이로써 RL의 정책 학습을 해치지 않으면서 privileged 지식을 정책 파라미터에 흡수하고, 모델 규모에 관계없이 안정적 성능 향상을 달성한다. ALFWorld, WebShop, Search-QA에서 GRPO 대비 일관된 개선을 보이며, 민감한 조회/정책 업데이트 시나리오에서도 강건성을 보인다.

왜 중요한가

다중 턴 LLM 에이전트에서 On-Policy Self-Distillation(OPSD)의 토큰 수준 지도가 유용하더라도, 시퀀스 길이가 늘수록 교정 신호의 불안정성, 그리고 privileged context에 대한 비대칭 신뢰 문제가 심화된다. SDAR은 OPSD를 보조적(auxiliary) 목적으로 한정하고, 토큰 수준에서 게이트를 통해 긍정 신호는 강화하고 부정 신호는 완만하게 억제한다. 이로써 RL의 정책 학습을 해치지 않으면서 privileged 지식을 정책 파라미터에 흡수하고, 모델 규모에 관계없이 안정적 성능 향상을 달성한다. ALFWorld, WebShop, Search-QA에서 GRPO 대비 일관된 개선을 보이며, 민감한 조회/정책 업데이트 시나리오에서도 강건성을 보인다.

핵심 기여

SDAR 도입으로 RL 주축의 학습과 OPSD의 보조 학습을 안정적으로 결합

OPSD를 독립적 보조 목적에 두고, 토큰 단위에서 게이트를 통해 distillation 신호를 선택적으로 주입하여 RL의 unbiased 규칙성을 유지한다.

토큰 수준 게이팅의 세 가지 전략

Entropy gating, Gap gating, Soft-OR gating을 제시하고, 각 토큰의 불확실성(ht)과 교차 신호(∆t)에 따라 가중치를 조정한다.

비대칭 신뢰 관리

privileged context의 긍정 신호를 강화하고 부정 신호는 보수적으로 다룸으로써 다중 턴에서의 부정 신호 확산을 억제한다.

모델 규모에 따른 강건한 일반화

Qwen2.5-3B/7B/3-1.7B에서 ALFWorld, WebShop-Acc, Search-QA에서 GRPO 대비 일관된 개선을 보였고, 7B 계열에서 대규모 이점을 확보했다.

저품질 Skill에서도 성능 유지

Random Retrieval 같은 저품질 재료에서도 Gate가 노이즈를 걸러내어 GRPO 대비 이익을 유지한다.

핵심 아이디어 이해하기

출발점: 다중 턴 에이전트의 학습은 환경 피드백에 기반한 RL과 토큰 수준의 지도 신호를 필요로 한다. OPSD는 토큰 단위 지도를 제공하지만, multi-turn에서 교정 신호의 누적 불일치로 불안정이 커진다. 해결책으로, SDAR은 OPSD를 보조적 목적에 두고, 각 토큰이 스스로 distillation 강도를 결정하도록 하는 sigmoid 게이트를 도입한다. 토큰의 게이트 g_t는 ∆t와 ht를 기반으로 산출되며, ∆t는 Teacher와 Student 간의 로그 확률 차이이며 ht는 Student의 엔트로피다. 게이트는 로지스틱 함수로 변환되어 0~1 사이의 가중치를 주고, stop-gradient로 gradient가 게이트에 역전파되지 않게 한다. 최적화는 L(θ) = LGRPO(θ) + λ LSDAR(θ) 형태로 유지되며, LSDAR는 ∑_t g_t [log πθ(y_t|s+t) − log πθ(y_t|st)]. 이로써 RL의 정책 업데이트를 안정적으로 유지하면서, privileged context의 신호를 선택적으로 정책에 흡수한다.

방법론

문제 설정: 멀티 턴 환경에서 초기 프롬프트 x를 주고, 토큰 시퀀스 y=(y1,...,yT)를 학생 정책 πθ로 생성한다. st는 자기-컨텍스트, s+t는 privileged/context-맥락이다. 최적화는 L(θ) = LGRPO(θ) + λ LSDAR(θ). 토큰 수준 게이팅: ∆t = sg(log πθ(yt|s+t) − log πθ(yt|st)); gt = σ(β ∆t). 세 가지 게이트를 사용한다: Entropy gating(gt = σ(β ht)), Gap gating(gt = σ(β ∆t)), Soft-OR gating(gt = σ(β[1 − (1 − ht)(1 − ∆t)])). LSDAR = Agg(gt [log πθ(yt|s+t) − log πθ(yt|st)]). 알고리즘 1에 따라, G개의 Rollout, sequence-level advantage, GRPO 손실, 토큰-레벨 게이팅 계산 및 최종 파라미터 업데이트를 수행한다. 하이퍼파라미터로 λ, β를 설정하고, β의 최적값은 5.0에서 가장 좋다. 실험은 Qwen2.5/3 계열에서 ALFWorld, WebShop, Search-QA 벤치마크를 대상으로 수행한다.

주요 결과

주요 결과: SDAR은 GRPO 대비 우수한 성능을 보이며, 7B 모델에서 ALFWorld +9.4%, Search-QA +7.0%, WebShop-Acc +10.2%의 개선을 달성했다. OPSD 단독은 심각한 불안정을 유발했고, GRPO+OPSD의 단순 결합은 모델 규모에 따라 악화를 보일 수 있다. SDAR의 게이팅은 retrieval 품질이 낮은 경우에도 robust하게 작동하며, 저품질 Skill에서도 긍정 신호를 보존하고 부정 신호를 완화한다. Ablation 연구에서 Gap gating이 엔트로피/Soft-OR보다 우수했고, β의 최적값은 5.0, λ의 최적값은 0.01로 확인되었다. 또한 reverse KL 기반의 LSDAR가 forward KL이나 JSD보다 성능이 우수했다.

기술 상세

아키텍처: 정책 πθ와 privileged context s+를 분리하고, token-level gating으로 LSDAR를 계산하여 L(θ) 합산. 수식 핵심: ∆t = sg(log πθ(yt|s+t) − log πθ(yt|st)); gt = σ(β ∆t); ℓ_t = gt [log πθ(yt|s+t) − log πθ(yt|st)]. LSDAR = Agg(ℓ_t). 알고리즘은 Algorithm 1에 정리되어 있으며, 4단계(rollout, advantage, GRPO, LSDAR, 업데이트)로 구성된다. 차별점은 stop-gradient를 사용하여 gate가 보조 신호로 작동하고 RL의 업데이트 흐름을 보존한다는 점, 그리고 게이트의 세 가지 전략으로 데이터에서 유의한 토큰에만 distillation 신호를 집중한다는 점이다.

실무 활용

다중 턴 LLM 에이전트의 학습 안정성과 일반화를 높이고, privileged context를 효과적으로 활용하는 보조 학습 방법으로 실무에 적용 가능하다.

다중 턴 GUI/웹 자동화 에이전트의 의사결정 품질 향상
대화형 에이전트의 정책 안정성 개선
훈련 시_privileged context를 활용하는 에이전트 학습 파이프라인의 보조 손실 도입

코드 공개 여부: 공개

코드 저장소 보기

키워드

Self-DistillationAgentic Reinforcement Learningtoken-level gatingprivileged contextmulti-turnGRPOOPSD

추가 이미지 분석

Chart
초기에는 게이트 활성 비율이 낮고 점차 증가하며, 유의한 토큰이 혜택 신호를 받는 경향을 보인다.
Gate Activation Ratio 및 학습 동역학

Chart
Gap gating이 다른 게이트보다 성능에 가장 큰 이점을 주며, β의 최적값은 5.0임이 확인된다.
Token-level Gating Ablation 결과