LLM-에이전트 시대에서 DAgger 재조명

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

롱-호라이즌 의사결정에서 초기 오착이 전체 상태 분포를 왜곡해 성능 저하를 유발한다. SFT는 전문가 상태에서의 학습으로 충분한 피드백을 주지만 배포 시 상태 분포가 달라지는 covariate shift를 초래하고, RLVR은 희소한 보상으로 학습한다. 본 연구는 DAgger의 원칙을 멀티턴 LM 에이전트에 적용해 교사 라벨을 유지하면서 학생의 방문 상태를 점차 반영하도록 학습 데이터를 확장, 배포 시 배치와의 불일치를 줄이고 밀집한 피드백을 제공한다.

왜 중요한가

핵심 기여

Turn-level teacher-student mixture rollout

각 턴마다 교사-학생의 선택 확률을 혼합해 상태-분포를 점진적으로 학생의 배포에 맞춘다. 이를 통해 deployment 시나리오에 근접한 상태를 학습 데이터에 반영한다.

AggreVaTe-style rollout 옵션

트래젝토리-레벨 혼합으로 학생-prefix를 정하고, 교사가 남은 부분을 완성하도록 한다. 이 방식은 교사 간섭의 간결한 대안으로 작동하며 여전히 교사 라벨을 사용한다.

SWE 태스크에서 실험적 성과

Qwen3-4B-Instruct-2507과 Qwen3-8B에서 SWE-Gym Holdout 및 SWE-Bench Verified에서 SFT/OPD 대비 성능 향상을 보이며, 4B 모델은 8B SWE 에이전트를 넘어서는 성능을 달성한다.

배치-처리 안정성 및 covariate shift 감소

교사 인터레이브 롤아웃으로 cold-start 문제를 완화하고, deployment-시 상태 분포에 대한 역 KL 발산을 낮춰 훈련 안정성과 일반화가 향상된다.

핵심 아이디어 이해하기

/단락 1/출발점과 기존 한계: 긴 호라이즌의 멀티턴 과제에서 학습 데이터의 분포가 deployment와 차이나는 문제를 다룬다. SFT는 전문가 상태에서의 샘플에 의존하고, 이로 인해 초기 오염된 상태들에서의 일반화가 어렵다. 반면 RL 기반 방법은 보상 신호가 희박해 학습이 비효율적이다. 온-폴리시 롤아웃은 상태 커버리지를 증가시키지만 교사 피드백의 풍부함이 부족하다.

방법론

/단락 2/해결 원리: DAgger는 학생이 방문하는 상태에서 교사의 라벨을 점진적으로 수집해 학습 데이터에 반영한다. 이 논문은 멀티턴 LM 에이전트에 맞춰 turn-level 및 traj-level 혼합 롤아웃을 제안한다. 각 턴에서 bt가 1일 때 교사 라벨을 사용하고 0일 때는 학생의 선택을 사용하되, 모든 방문 상태에서 교사 라벨 a˜t를 수집한다.

주요 결과

/단락 3+/달라지는 점: βi를 점진적으로 감소시키는 DAgger-style과 ρi를 이용한 AggreVaTe-style 롤아웃은 초기에는 교사 주도 상태를 많이 다루고, 이후에는 학생-주도 상태를 더 많이 다룬다. 이는 교사 라벨의 풍부한 피드백과 on-policy 상태 커버리지를 결합해 covariate shift를 하향시키고, 최종적으로 더 안정적이고 일반화된 정책을 학습하게 한다.

기술 상세

/단락 1: 구조 및 학습 설정. 다 Turn LM 에이전트에서 x를 초기 프롬프트로 두고, 시퀀스 길이 T까지 상호작용하며 a_t를 샘플링한다. 행동은 a˜t는 교사 πe(·|st)에서 샘플되고, 종료 조건은 finish 또는 Tmax에 도달한다. 정책 πθ를 학습한다.

한계점

/제한점: SWE 태스크에 집중되며, 더 강한 교사 의존성과 긴 컨텍스트 한계(context overflow) 문제가 여전히 남아 있다. 또한 테스트드 외 도메인으로의 일반화는 추가 연구가 필요하다.

키워드

Dataset Aggregation (DAgger)LLM-agentmulti-turncovariate shifton-policy rolloutsSWE-GymSWE-Bench Verified