메타에이전트-X: 엔드-투-엔드 강화학습으로 자동 다중에이전트 시스템의 설계와 실행 최적화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

다중에이전트 시스템(MAS)의 설계와 실행을 서로 독립적으로 최적화하던 기존 방식은 실행기(Executor)의 한계를 초래한다. 본 논문은 Designer와 Executor를 함께 학습하는 엔드-투-엔드 강화학습 프레임워크를 제시하고, 계층적 롤아웃과 단계적 공동 진화를 도입해 MAS의 자동화를 실용적 수준으로 끌어올린다. 실험에서 기존 자동 MAS 대비 최대 21.7%의 성능 향상을 달성한다.

왜 중요한가

다중에이전트 시스템(MAS)의 설계와 실행을 서로 독립적으로 최적화하던 기존 방식은 실행기(Executor)의 한계를 초래한다. 본 논문은 Designer와 Executor를 함께 학습하는 엔드-투-엔드 강화학습 프레임워크를 제시하고, 계층적 롤아웃과 단계적 공동 진화를 도입해 MAS의 자동화를 실용적 수준으로 끌어올린다. 실험에서 기존 자동 MAS 대비 최대 21.7%의 성능 향상을 달성한다.

핵심 기여

End-to-end training framework for automatic MAS

Designer와 Executor를 함께 최적화하는 엔드-투-엔드 강화학습 프레임워크를 제안한다. 스크립트 기반 MAS 설계, 롤아웃 수집, 신호 크레딧 할당이 하나의 학습 루프에서 이루어진다.

Two mechanisms for stable meta-agent optimization

Executor-Designer Hierarchical Rollout과 Stagewise Co-evolution의 두 가지 메커니즘을 도입해 학습 안정성과 확장성을 확보한다.

Empirical gains across math and code benchmarks

6개 수학/코드 벤치마크와 2개 백본 모델에서 baselines를 상회하며, 평균 성능이 최대 +21.7% 향상된다.

Ablation study revealing designer-executor dynamics

계층적 롤아웃과 스테이지별 학습의 구성 요소가 디자이너와 실행기의 공동 진화에 어떻게 기여하는지 분석한다.

핵심 아이디어 이해하기

출발점: MAS의 성능은 디자이너의 설계 품질과 실행자의 실행 품질 간의 상호작용에 의해 결정된다. 기존 접근은 두 역할을 단일 파이프라인으로 다루거나 실행기를 고정해 학습 신호를 차단한다. 해결 원리: GRPO 기반의 정책 최적화를 Designer와 Executor 각각에 적용하고, Bi-level 트리 구조의 Rollout으로 디자인-실행 간 신호를 분리해 신뢰 가능한 Advantage를 추정한다. 달라지는 점: Stagewise Co-evolution으로 두 역할의 학습을 교대로 수행해 서로 다른 신호 분포를 안정적으로 다루고, Hierarchical Rollout으로 신뢰도 높은 크레딧 할당 및 데이터 효율을 달성한다.

방법론

전체 프레임워크는 Task query q를 입력으로 Designer 정책 πDθD가 Task-specific MAS를 생성하고, Executor 정책 πEθE가 instantiated MAS를 환경에서 실행한다. 파라미터 세트 ϑ = {ϑD, ϑE}로 정의하며, 공유/분리 정책 설정을 지원한다. 학습 목표는 d ∼ πD(·|q)와 e ∼ πE(·|q,d)에서 얻은 R(q,d,e)에 대해 온라인으로 신호를 수집하고, 역할별로 GRPO 손실 Lr(ϑr)을 최소화하는 것이다. 계층적 신호 할당은 Bi-level Tree로 구성되며, 디자이너 디자인 di에 대해 M개의 후보를 샘플링하고 각 디자인 di에 대해 N개의 실행 롤아웃 ei,j를 수행해 M×N 평가 매트릭스를 구성한다. 디자이너 어드밴티지 ÂDi는 같은 문제 q의 다른 디자인과의 평균 성과를 기준으로 계산되고, 실행자 어드밴티지 ÂEτ는 같은 문제 q의 모든 실행 trajectories에 대해 평균-표준편차 정규화를 적용해 계산된다. Stagewise Co-evolution은 고정 길이 K의 구간으로 활성 역할을 번갈아가며 업데이트하는 방식으로, 활성 역할의 정책만 업데이트하고 비활성 역할의 gradient는 마스킹한다. 실험은 4개의 DESIGNER 샘플(M=4)과 각 디자인당 4회 실행(N=4)으로 구성되는 기본 설정을 사용하며, SFT cold-start 후 RL로 학습한다. 벤치마크는 AIME24/AIME25/OlympiadBench/APPS/LiveCodeBench/CodeContests를 포함한다. 학습 규칙은 GRPO의 클리핑된 정책 그래디언트를 사용하고, stage 길이 K=30, lr=5e-6로 설정한다.

주요 결과

주요 결과로 8B 백본의 경우 MetaAgent-X RL의 평균 점수는 38.33으로 Single-Agent baseline 대비 +11.17 포인트의 개선을 보였고, 4B 백본에서는 평균 34.18로 +12.80의 개선을 달성했다. 여섯 수학/코드 벤치마크에서 RL 기반 Auto MAS가 대부분의 벤치마크에서 우수한 성능을 보였고, AFlow/ADAS 같은 검색 기반 BAS와 비교했을 때 일반화가 더 안정적이었다. Ablation 연구에서 Executor-Designer Hierarchical Rollout은 M=4, N=4 구성에서 AIME24=40.0%, AIME25=33.3%로, 더flatten한 롤아웃 구성(M=8,N=1)보다 성능이 좋았으며(Stagewise) Stagewise Co-evolution은 수학/코드 벤치마크에서 최고 성능을 나타냈다. Shared 정책은 Separate 정책보다 일관되게 우수하며, per-task 구조 선택에서 RL은 문제 특성에 따라 Solver–Reflector, Ensemble–Judge 등의 구조를 선택한다고 확인된다. 시나리오별 사례 연구에서 디자이너의 구조 선택과 실행기의 수행 능력 모두가 개선되었음을 확인했다.

기술 상세

전체 아키텍처는 Designer와 Executor로 구성된 두 정책 네트워크를 한 프레임워크 안에서 온라인으로 학습한다. 이때 GRPO 손실은 각 역할의 어드밴티지를 역할별 G Groups에 대하여 최소화하며, Di에 대한 디자인 레벨 보상과 Ei에 대한 실행 레벨 보상을 각각 계산한다. Bi-level Tree 구조의 롤아웃은 q 당 디자이너의 후보 MAS(M)와 각 MAS의 실행 롤아웃(N)을 구성해 M×N 매트릭스를 생성하고, 디자인 레벨의 평균 보상 R¯Di를 설계하는 반면 실행자 보상은 G E q에 모아 평균/표준편차로 정규화해 계산한다. Stagewise Co-evolution은 t 단계에서 활성 역할을 결정하고, 각 단계에서 오직 활성 역할의 정책만 업데이트하는 방식으로 학습 간섭을 줄인다. Ablation 연구에서 계층적 롤아웃(M=4,N=4)이 성능을 높였고, Stagewise 구성이 더 안정적이며 최종 성능을 상승시켰다. Shared vs Separate 정책 비교에서 Shared가 더 나은 일반화 성능을 보여주었다.

실무 활용

MAS를 자동으로 설계하고 실행하는 시스템의 학습을 엔드-투-엔드로 가능하게 하며, 설계와 실행 간의 공동 진화를 통해 새로운 문제에 적응하는 능력을 높인다.

수학/코드 문제 해결에 특화된 자동 MAS 설계 및 실행
다양한 도메인에서의 태스크- conditioned MAS 디자인 생성
대규모 자동화 워크플로우의 효과적 크레딧 할당 및 파이프라인 조정
에이전트 기반 소프트웨어 개발에서의 자동 협업 설계

코드 공개 여부: 미확인

키워드

automatic multi-agent systems(자동 다중에이전트 시스템)end-to-end reinforcement learning(엔드-투-엔드 강화학습)designer-executor co-evolution(디자이너-에그제큐터 공동 진화)Executor-Designer Hierarchical Rollout(계층적 롤아웃)Stagewise Co-evolution(스테이지별 공동 진화)GRPO(그룹 상대 정책 최적화)task-conditioned MAS design(작업 조건부 MAS 설계)