TL;DR
롱-호라이즌 의사결정에서 초기 오착이 전체 상태 분포를 왜곡해 성능 저하를 유발한다. SFT는 전문가 상태에서의 학습으로 충분한 피드백을 주지만 배포 시 상태 분포가 달라지는 covariate shift를 초래하고, RLVR은 희소한 보상으로 학습한다. 본 연구는 DAgger의 원칙을 멀티턴 LM 에이전트에 적용해 교사 라벨을 유지하면서 학생의 방문 상태를 점차 반영하도록 학습 데이터를 확장, 배포 시 배치와의 불일치를 줄이고 밀집한 피드백을 제공한다.
왜 중요한가
롱-호라이즌 의사결정에서 초기 오착이 전체 상태 분포를 왜곡해 성능 저하를 유발한다. SFT는 전문가 상태에서의 학습으로 충분한 피드백을 주지만 배포 시 상태 분포가 달라지는 covariate shift를 초래하고, RLVR은 희소한 보상으로 학습한다. 본 연구는 DAgger의 원칙을 멀티턴 LM 에이전트에 적용해 교사 라벨을 유지하면서 학생의 방문 상태를 점차 반영하도록 학습 데이터를 확장, 배포 시 배치와의 불일치를 줄이고 밀집한 피드백을 제공한다.
핵심 기여
Turn-level teacher-student mixture rollout
각 턴마다 교사-학생의 선택 확률을 혼합해 상태-분포를 점진적으로 학생의 배포에 맞춘다. 이를 통해 deployment 시나리오에 근접한 상태를 학습 데이터에 반영한다.
AggreVaTe-style rollout 옵션
트래젝토리-레벨 혼합으로 학생-prefix를 정하고, 교사가 남은 부분을 완성하도록 한다. 이 방식은 교사 간섭의 간결한 대안으로 작동하며 여전히 교사 라벨을 사용한다.
SWE 태스크에서 실험적 성과
Qwen3-4B-Instruct-2507과 Qwen3-8B에서 SWE-Gym Holdout 및 SWE-Bench Verified에서 SFT/OPD 대비 성능 향상을 보이며, 4B 모델은 8B SWE 에이전트를 넘어서는 성능을 달성한다.
배치-처리 안정성 및 covariate shift 감소
교사 인터레이브 롤아웃으로 cold-start 문제를 완화하고, deployment-시 상태 분포에 대한 역 KL 발산을 낮춰 훈련 안정성과 일반화가 향상된다.
핵심 아이디어 이해하기
/단락 1/출발점과 기존 한계: 긴 호라이즌의 멀티턴 과제에서 학습 데이터의 분포가 deployment와 차이나는 문제를 다룬다. SFT는 전문가 상태에서의 샘플에 의존하고, 이로 인해 초기 오염된 상태들에서의 일반화가 어렵다. 반면 RL 기반 방법은 보상 신호가 희박해 학습이 비효율적이다. 온-폴리시 롤아웃은 상태 커버리지를 증가시키지만 교사 피드백의 풍부함이 부족하다.
방법론
/단락 2/해결 원리: DAgger는 학생이 방문하는 상태에서 교사의 라벨을 점진적으로 수집해 학습 데이터에 반영한다. 이 논문은 멀티턴 LM 에이전트에 맞춰 turn-level 및 traj-level 혼합 롤아웃을 제안한다. 각 턴에서 bt가 1일 때 교사 라벨을 사용하고 0일 때는 학생의 선택을 사용하되, 모든 방문 상태에서 교사 라벨 a˜t를 수집한다.
주요 결과
/단락 3+/달라지는 점: βi를 점진적으로 감소시키는 DAgger-style과 ρi를 이용한 AggreVaTe-style 롤아웃은 초기에는 교사 주도 상태를 많이 다루고, 이후에는 학생-주도 상태를 더 많이 다룬다. 이는 교사 라벨의 풍부한 피드백과 on-policy 상태 커버리지를 결합해 covariate shift를 하향시키고, 최종적으로 더 안정적이고 일반화된 정책을 학습하게 한다.
관련 Figure

Ours (DAgger-Style)와 Ours (AggreVaTe-Style)가 SFT 및 On-Policy Distillation 대비 상향 곡선을 형성하며, SWE-Gym Holdout과 SWE-Bench Verified에서 성능 차이가 나타난다. 샘플 수가 증가함에 따라 DAgger 방식이 더 높은 최종 해상도를 달성하는 경향을 보인다.
Figure 1의 첫 그림은 4B/8B 모델에서 다양한 post-training 방법의 해상도(Resolution Rate) 대 효과적 학습 샘플 수를 보여주는 다중 선 그래프이다.

대조적으로 DAgger-Style과 AggreVaTe-Style은 초기 하강 이후에도 0.10 근방으로 유지되며, SFT는 0.126 근처로 상승하는 경향을 보인다. OPD와 비교해 Covariate Shift 억제가 더 안정적으로 나타난다.
Figure 2는 학생-Induced 롤아웃 하에서의 정책 Divergence를 측정한 Reverse KL의 변화 그래프이다.

본 그림은 앞선 Figure 2의 맥락을 보완하며, 각 방법이 상태 분포에 미치는 영향을 체계적으로 비교하는 데 기여한다.
그래프의 범례를 포함한 보완 그림으로, 각 방법의 성능 차이를 시각적으로 보강한다.
기술 상세
/단락 1: 구조 및 학습 설정. 다 Turn LM 에이전트에서 x를 초기 프롬프트로 두고, 시퀀스 길이 T까지 상호작용하며 a_t를 샘플링한다. 행동은 a˜t는 교사 πe(·|st)에서 샘플되고, 종료 조건은 finish 또는 Tmax에 도달한다. 정책 πθ를 학습한다.
한계점
/제한점: SWE 태스크에 집중되며, 더 강한 교사 의존성과 긴 컨텍스트 한계(context overflow) 문제가 여전히 남아 있다. 또한 테스트드 외 도메인으로의 일반화는 추가 연구가 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.