TCOD: 멀티턴 자율 에이전트를 위한 온폴리시 증류에서의 시간적 커리큘럼 탐구

기존의 온폴리시 증류(OPD) 방식은 단일 턴 작업에는 효과적이지만, 멀티턴 에이전트 환경에서는 오류가 누적되면서 학습이 불안정해지는 한계가 있었다. 이 논문은 시간적 커리큘럼을 도입해 학습 난이도를 조절함으로써 소형 모델도 복잡한 연속 작업을 안정적으로 수행하고 심지어 스승 모델의 성능을 넘어서게 만든다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Trajectory-Level KL Instability 현상 규명

멀티턴 환경에서 온폴리시 증류를 적용할 때, 턴이 진행됨에 따라 오류가 복합적으로 쌓이면서 학생 모델이 스승 모델의 데이터 분포를 벗어나 KL 발산이 급격히 증가하고 성능이 붕괴되는 메커니즘을 발견했다.

TCOD(Temporal Curriculum On-Policy Distillation) 프레임워크 제안

에이전트가 노출되는 궤적의 깊이를 짧은 단계에서 긴 단계로 점진적으로 확장하는 시간적 커리큘럼 전략을 통해 학습 안정성을 확보하고 성능을 개선했다.

두 가지 실용적 변체(F2B, B2F) 개발

초기 단계부터 탐사 범위를 넓혀가는 Forward-to-Backward(F2B)와 스승의 성공 궤적 끝단에서 시작해 시작점으로 범위를 넓히는 Backward-to-Forward(B2F) 방식을 통해 다양한 환경에 대응 가능하도록 설계했다.

스승 모델의 한계를 넘어서는 일반화 성능 입증

ALFWorld 하드 셋 실험에서 TCOD-B2F는 스승 모델이 실패하는 과제에서도 성공하며 스승의 성공률을 최대 14포인트 상회하는 결과를 보여주었다.

핵심 아이디어 이해하기

기존의 On-Policy Distillation은 학생 모델이 직접 생성한 결과물에 대해 스승 모델의 확률 분포를 정답지로 삼아 KL Divergence Loss를 최소화하며 학습한다. 하지만 멀티턴 에이전트 시나리오에서는 첫 번째 턴의 작은 실수가 두 번째 턴의 상태(State)를 스승 모델이 가르쳐본 적 없는 낯선 영역으로 밀어내게 된다. 이로 인해 스승 모델의 가이드가 부정확해지고, 학생 모델은 갈수록 더 큰 혼란에 빠지는 '오류 누적' 문제가 발생한다.

이 논문은 이를 해결하기 위해 '시간적 커리큘럼'이라는 개념을 도입한다. 처음에는 아주 짧은 궤적(1~2턴)만 학습시켜 기초를 다지게 하고, 학생의 역량이 올라감에 따라 점진적으로 더 긴 궤적을 처리하도록 난이도를 높인다. 이는 마치 복잡한 수학 문제를 풀 때 처음부터 끝까지 한 번에 풀게 시키는 대신, 첫 단계 연산부터 차근차근 익히게 하는 것과 같다.

결과적으로 학생 모델은 초기 단계의 안정적인 상태 분포 내에서 정확한 피드백을 받으며 학습을 시작할 수 있다. 이렇게 쌓인 견고한 기초는 궤적이 길어져도 오류가 폭발적으로 증가하는 것을 막아주며, 최종적으로는 전체 경로를 스스로 완주할 수 있는 강력한 추론 능력을 갖추게 한다.

관련 Figure

#3Chart
모든 모델 쌍에서 초기 KL 발산이 최종 수렴 값보다 수십 배 높게 시작됨을 보여주며, 특히 소형 모델일수록 초기 불안정성이 심각함을 수치로 증명한다. 이는 논문이 제안하는 커리큘럼 학습의 필요성을 뒷받침하는 근거가 된다.
다양한 학생-스승 모델 쌍에서 학습 초기와 최종 단계의 KL 발산 값을 비교한 차트이다.

방법론

TCOD는 궤적 깊이 k를 제어하는 시간적 커리큘럼을 핵심으로 한다. k = k_start + ⌊n/η⌋ 수식을 사용하여 현재 학습 스텝 n과 성장률 η에 따라 최대 상호작용 단계 k를 선형적으로 증가시킨다. [현재 학습 단계 n을 성장률 η로 나누어 초기 단계 k_start에 더함 → 정수값 k 산출 → 해당 스텝까지만 에이전트가 환경과 상호작용하도록 제한 → 점진적으로 복잡한 경로 학습]

Forward-to-Backward(F2B) 변체는 에이전트가 초기 상태에서 시작하여 최대 k 단계까지만 탐색하도록 제한한다. [초기 상태 s0 입력 → 학생 모델이 k 단계까지 액션 생성 → 생성된 짧은 궤적에 대해 스승 모델과 KL Divergence 계산 → 초기 단계의 정확도 우선 확보]

Backward-to-Forward(B2F) 변체는 스승의 성공 궤적 τ*를 활용한다. 에이전트를 성공 지점에 가까운 L-k 단계에서 시작하게 하여 목표 달성을 쉽게 만든 뒤, 점차 시작 지점을 앞으로 당긴다. [스승의 성공 경로 중 앞부분 L-k 단계를 강제로 실행 → 이후 k 단계 동안 학생 모델이 이어받아 수행 → 성공 경험을 바탕으로 역방향으로 학습 범위 확장]

학습 효율을 위해 비동기 롤아웃 및 트레이닝 구조를 채택했다. Actor 프로세스가 궤적을 수집하여 공유 버퍼에 저장하면 Learner 프로세스가 이를 가져와 가중치를 업데이트한다. 이때 정책의 신선도를 유지하기 위해 Staleness Filter를 적용하여 너무 오래된 궤적은 폐기한다. [현재 정책 버전과 수집 시점 버전 차이 계산 → 차이가 Δmax(기본값 2)보다 크면 폐기 → 최신 정책에 기반한 데이터로만 학습하여 On-Policy 특성 유지]

관련 Figure

#5Diagram
F2B는 초기 단계부터 점진적으로 탐색 길이를 늘려가고, B2F는 스승의 성공 경로 끝부분부터 시작해 점차 시작점을 앞으로 당기며 학습 범위를 넓히는 과정을 보여준다. 이 시각화는 논문이 제안하는 시간적 커리큘럼의 핵심 메커니즘을 명확히 설명한다.
TCOD의 두 가지 학습 전략인 F2B와 B2F의 작동 원리를 시각화한 다이어그램이다.

주요 결과

ALFWorld 벤치마크에서 Qwen2.5-3B 학생 모델은 일반 OPD 적용 시 성공률이 거의 0에 수렴했으나, TCOD 적용 후 성공률이 81.43%까지 회복되었다. 이는 스승 모델인 Qwen2.5-7B-RL의 성능(85.71%)에 근접한 수치이다.

일반화 성능 측면에서 TCOD-B2F는 스승 모델이 실패하는 'Hard' 데이터셋에서 20.66%의 성공률을 기록하여, 스승 모델의 성공률인 6.61%를 크게 앞질렀다. 이는 단순한 모방을 넘어 더 강건한 정책을 학습했음을 시사한다.

효율성 분석 결과, TCOD는 일반 OPD 대비 전체 학습 시간을 약 32% 단축했다. 이는 학습 초기 단계에서 짧은 궤적만 처리함으로써 데이터 수집 및 연산 비용을 최적화했기 때문이다. 또한 평균 액션 라운드 수를 약 2.97단계 줄여 더 효율적인 문제 해결 경로를 찾아냈다.

기술 상세

TCOD는 Trajectory-Level KL Instability를 해결하기 위해 시간적 차원의 제약 조건을 손실 함수에 통합한다. 수식적으로는 전체 궤적 T에 대한 KL 합산 대신, 커리큘럼 윈도우 k 내의 턴 t에 대해서만 KL(π_phi || π_theta)를 계산한다. 이는 학생 모델이 자신의 현재 능력 범위를 벗어난 상태(Out-of-Distribution)에서 발생하는 신뢰할 수 없는 스승의 신호를 차단하는 효과를 준다.

B2F 방식의 경우, 스승의 성공 궤적을 'Stop Gradient' 상태로 재생(Replay)하여 학생을 성공의 문턱(Doorstep of success)에 배치한다. 이는 강화학습의 Reward Sparsity 문제를 해결하는 동시에, 학생 모델이 항상 성공으로 끝나는 경로의 마지막 부분부터 학습하게 하여 학습 신호의 질을 높인다. 학습이 진행됨에 따라 스승의 개입(Prefix)을 줄여 최종적으로는 Test-time과 동일한 End-to-End 수행 능력을 갖추게 한다.

한계점

TCOD-B2F 변체는 사전에 수집된 스승 모델의 성공 궤적 데이터가 필요하므로 추가적인 데이터 수집 오버헤드가 발생할 수 있다. 또한 고정된 선형 커리큘럼 스케줄을 사용하므로, 환경이나 모델의 학습 속도에 따라 최적의 성장률(η)이 달라질 수 있어 자동화된 적응형 메커니즘이 향후 과제로 남아 있다.

실무 활용

멀티턴 상호작용이 필수적인 자율 에이전트 시스템을 소형 언어 모델로 구현할 때 매우 실용적인 학습 프레임워크이다. 특히 스승 모델의 API 비용이 높거나 실시간 응답이 필요한 온디바이스 에이전트 개발에 적합하다.

웹 탐색 및 전자상거래 구매 대행 에이전트의 순차적 의사결정 학습
복잡한 과학 실험 프로토콜을 수행하는 텍스트 기반 연구 보조 AI 개발
가정 내 로봇의 다단계 가사 수행 시나리오를 위한 효율적인 정책 증류
제한된 컴퓨팅 자원을 가진 환경에서 대형 모델의 추론 능력을 소형 모델로 이식

코드 공개 여부: 공개

코드 저장소 보기

키워드

On-Policy Distillation(온폴리시 증류)Multi-turn Agent(멀티턴 에이전트)Curriculum Learning(커리큘럼 학습)KL Divergence(KL 발산)Trajectory Instability(궤적 불안정성)

TCOD: 멀티턴 자율 에이전트를 위한 온폴리시 증류에서의 시간적 커리큘럼 탐구

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Trajectory-Level KL Instability 현상 규명

TCOD(Temporal Curriculum On-Policy Distillation) 프레임워크 제안

두 가지 실용적 변체(F2B, B2F) 개발

스승 모델의 한계를 넘어서는 일반화 성능 입증

ALFWorld 하드 셋 실험에서 TCOD-B2F는 스승 모델이 실패하는 과제에서도 성공하며 스승의 성공률을 최대 14포인트 상회하는 결과를 보여주었다.

핵심 아이디어 이해하기

관련 Figure

방법론

관련 Figure

주요 결과

기술 상세

한계점

실무 활용

웹 탐색 및 전자상거래 구매 대행 에이전트의 순차적 의사결정 학습
복잡한 과학 실험 프로토콜을 수행하는 텍스트 기반 연구 보조 AI 개발
가정 내 로봇의 다단계 가사 수행 시나리오를 위한 효율적인 정책 증류
제한된 컴퓨팅 자원을 가진 환경에서 대형 모델의 추론 능력을 소형 모델로 이식

코드 공개 여부: 공개

코드 저장소 보기

키워드

On-Policy Distillation(온폴리시 증류)Multi-turn Agent(멀티턴 에이전트)Curriculum Learning(커리큘럼 학습)KL Divergence(KL 발산)Trajectory Instability(궤적 불안정성)

TCOD: 멀티턴 자율 에이전트를 위한 온폴리시 증류에서의 시간적 커리큘럼 탐구

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

TCOD: 멀티턴 자율 에이전트를 위한 온폴리시 증류에서의 시간적 커리큘럼 탐구

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드