TL;DR
다중에이전트 시스템(MAS)의 설계와 실행을 서로 독립적으로 최적화하던 기존 방식은 실행기(Executor)의 한계를 초래한다. 본 논문은 Designer와 Executor를 함께 학습하는 엔드-투-엔드 강화학습 프레임워크를 제시하고, 계층적 롤아웃과 단계적 공동 진화를 도입해 MAS의 자동화를 실용적 수준으로 끌어올린다. 실험에서 기존 자동 MAS 대비 최대 21.7%의 성능 향상을 달성한다.
왜 중요한가
다중에이전트 시스템(MAS)의 설계와 실행을 서로 독립적으로 최적화하던 기존 방식은 실행기(Executor)의 한계를 초래한다. 본 논문은 Designer와 Executor를 함께 학습하는 엔드-투-엔드 강화학습 프레임워크를 제시하고, 계층적 롤아웃과 단계적 공동 진화를 도입해 MAS의 자동화를 실용적 수준으로 끌어올린다. 실험에서 기존 자동 MAS 대비 최대 21.7%의 성능 향상을 달성한다.
핵심 기여
End-to-end training framework for automatic MAS
Designer와 Executor를 함께 최적화하는 엔드-투-엔드 강화학습 프레임워크를 제안한다. 스크립트 기반 MAS 설계, 롤아웃 수집, 신호 크레딧 할당이 하나의 학습 루프에서 이루어진다.
Two mechanisms for stable meta-agent optimization
Executor-Designer Hierarchical Rollout과 Stagewise Co-evolution의 두 가지 메커니즘을 도입해 학습 안정성과 확장성을 확보한다.
Empirical gains across math and code benchmarks
6개 수학/코드 벤치마크와 2개 백본 모델에서 baselines를 상회하며, 평균 성능이 최대 +21.7% 향상된다.
Ablation study revealing designer-executor dynamics
계층적 롤아웃과 스테이지별 학습의 구성 요소가 디자이너와 실행기의 공동 진화에 어떻게 기여하는지 분석한다.
핵심 아이디어 이해하기
출발점: MAS의 성능은 디자이너의 설계 품질과 실행자의 실행 품질 간의 상호작용에 의해 결정된다. 기존 접근은 두 역할을 단일 파이프라인으로 다루거나 실행기를 고정해 학습 신호를 차단한다. 해결 원리: GRPO 기반의 정책 최적화를 Designer와 Executor 각각에 적용하고, Bi-level 트리 구조의 Rollout으로 디자인-실행 간 신호를 분리해 신뢰 가능한 Advantage를 추정한다. 달라지는 점: Stagewise Co-evolution으로 두 역할의 학습을 교대로 수행해 서로 다른 신호 분포를 안정적으로 다루고, Hierarchical Rollout으로 신뢰도 높은 크레딧 할당 및 데이터 효율을 달성한다.
방법론
전체 프레임워크는 Task query q를 입력으로 Designer 정책 πDθD가 Task-specific MAS를 생성하고, Executor 정책 πEθE가 instantiated MAS를 환경에서 실행한다. 파라미터 세트 ϑ = {ϑD, ϑE}로 정의하며, 공유/분리 정책 설정을 지원한다. 학습 목표는 d ∼ πD(·|q)와 e ∼ πE(·|q,d)에서 얻은 R(q,d,e)에 대해 온라인으로 신호를 수집하고, 역할별로 GRPO 손실 Lr(ϑr)을 최소화하는 것이다. 계층적 신호 할당은 Bi-level Tree로 구성되며, 디자이너 디자인 di에 대해 M개의 후보를 샘플링하고 각 디자인 di에 대해 N개의 실행 롤아웃 ei,j를 수행해 M×N 평가 매트릭스를 구성한다. 디자이너 어드밴티지 ÂDi는 같은 문제 q의 다른 디자인과의 평균 성과를 기준으로 계산되고, 실행자 어드밴티지 ÂEτ는 같은 문제 q의 모든 실행 trajectories에 대해 평균-표준편차 정규화를 적용해 계산된다. Stagewise Co-evolution은 고정 길이 K의 구간으로 활성 역할을 번갈아가며 업데이트하는 방식으로, 활성 역할의 정책만 업데이트하고 비활성 역할의 gradient는 마스킹한다. 실험은 4개의 DESIGNER 샘플(M=4)과 각 디자인당 4회 실행(N=4)으로 구성되는 기본 설정을 사용하며, SFT cold-start 후 RL로 학습한다. 벤치마크는 AIME24/AIME25/OlympiadBench/APPS/LiveCodeBench/CodeContests를 포함한다. 학습 규칙은 GRPO의 클리핑된 정책 그래디언트를 사용하고, stage 길이 K=30, lr=5e-6로 설정한다.
관련 Figure

세 가지 MAS Paradigm의 차이와 엔드-투-엔드 학습 프레임워크의 위치를 시각적으로 보여준다. 해당 그림은 자동 MAS의 설계-실행 분리 문제와 본 논문의 목표인 end-to-end 학습의 필요성을 직관적으로 보강한다.
A) 자동 MAS 파라다임 비교 및 학습 파이프라인 개요

Designer-Executor 간의 상호작용과 계층적 롤아웃 구조를 보여주는 핵심 도식으로, task-conditioned MAS 구성의 자동 생성과 롤아웃 수집 플로우를 시각화한다.
B) MetaAgent-X training 파이프라인

스테이지 길이에 따른 안정성 및 최종 보상 차이를 보여주는 도식으로, 30-step이 최적의 안정성과 성능 향상을 보임을 확인해 준다.
Stage length에 따른 ablation: 1-step/10-step/30-step
주요 결과
주요 결과로 8B 백본의 경우 MetaAgent-X RL의 평균 점수는 38.33으로 Single-Agent baseline 대비 +11.17 포인트의 개선을 보였고, 4B 백본에서는 평균 34.18로 +12.80의 개선을 달성했다. 여섯 수학/코드 벤치마크에서 RL 기반 Auto MAS가 대부분의 벤치마크에서 우수한 성능을 보였고, AFlow/ADAS 같은 검색 기반 BAS와 비교했을 때 일반화가 더 안정적이었다. Ablation 연구에서 Executor-Designer Hierarchical Rollout은 M=4, N=4 구성에서 AIME24=40.0%, AIME25=33.3%로, 더flatten한 롤아웃 구성(M=8,N=1)보다 성능이 좋았으며(Stagewise) Stagewise Co-evolution은 수학/코드 벤치마크에서 최고 성능을 나타냈다. Shared 정책은 Separate 정책보다 일관되게 우수하며, per-task 구조 선택에서 RL은 문제 특성에 따라 Solver–Reflector, Ensemble–Judge 등의 구조를 선택한다고 확인된다. 시나리오별 사례 연구에서 디자이너의 구조 선택과 실행기의 수행 능력 모두가 개선되었음을 확인했다.
관련 Figure

Stagewise/계층적 롤아웃의 효과를 보여주는 실험 곡선으로, 단계별로 디자인과 실행자 신호가 어떻게 안정적으로 개선되는지 시각적으로 확인가능하다.
훈련 중 보상 곡선: 단계별 및 롤아웃 구성에 따른 성능 추이
기술 상세
전체 아키텍처는 Designer와 Executor로 구성된 두 정책 네트워크를 한 프레임워크 안에서 온라인으로 학습한다. 이때 GRPO 손실은 각 역할의 어드밴티지를 역할별 G Groups에 대하여 최소화하며, Di에 대한 디자인 레벨 보상과 Ei에 대한 실행 레벨 보상을 각각 계산한다. Bi-level Tree 구조의 롤아웃은 q 당 디자이너의 후보 MAS(M)와 각 MAS의 실행 롤아웃(N)을 구성해 M×N 매트릭스를 생성하고, 디자인 레벨의 평균 보상 R¯Di를 설계하는 반면 실행자 보상은 G E q에 모아 평균/표준편차로 정규화해 계산한다. Stagewise Co-evolution은 t 단계에서 활성 역할을 결정하고, 각 단계에서 오직 활성 역할의 정책만 업데이트하는 방식으로 학습 간섭을 줄인다. Ablation 연구에서 계층적 롤아웃(M=4,N=4)이 성능을 높였고, Stagewise 구성이 더 안정적이며 최종 성능을 상승시켰다. Shared vs Separate 정책 비교에서 Shared가 더 나은 일반화 성능을 보여주었다.
실무 활용
MAS를 자동으로 설계하고 실행하는 시스템의 학습을 엔드-투-엔드로 가능하게 하며, 설계와 실행 간의 공동 진화를 통해 새로운 문제에 적응하는 능력을 높인다.
- 수학/코드 문제 해결에 특화된 자동 MAS 설계 및 실행
- 다양한 도메인에서의 태스크- conditioned MAS 디자인 생성
- 대규모 자동화 워크플로우의 효과적 크레딧 할당 및 파이프라인 조정
- 에이전트 기반 소프트웨어 개발에서의 자동 협업 설계
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.