EnvFactory: 실행 가능 환경 합성을 통한 도구 사용 에이전트 확장 및 강인한 RL

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

도구를 사용하는 에이전트 학습은 실행 가능한 환경과 데이터의 품질에 좌우된다. 프로덕션 API나 시뮬레이션에 의존하면 확장이 어렵고 불안정해진다. EnvFactory는 authentic online resources에서 실행 가능 환경을 자동으로 구성하고 topology-aware sampling으로 자연스러운 다-turn 트젝을 합성하여 데이터 효율성과 일반화 성능을 높인다. 이로써 벤치마크에서의 성능 향상과 학습 비용 감소가 가능하다.

왜 중요한가

핵심 기여

EnvGen + QueryGen의 자동 환경 구성 파이프라인

실제 온라인 자원을 바탕으로 85개의 MCP 환경과 도구 집합을 자동으로 구성하고, stateful 데이터베이스와 실행 가능한 도구 인터페이스를 생성한다.

의존성 해결을 위한 토폴로지 기반 샘플링

도구 간 입력/출력 의존성을 그래프상에서 해결하고 비선형 도구 체인을 구성해 현실적인 대화 흐름을 확보한다.

자연스러운 다-turn 트젝 합성

QueryGen이 하위 목표 분해와 목표 표현을 통해 암시적 의도와 모호성을 포함한 질의를 생성하고 ground-truth 도구 호출 시퀀스를 확보한다.

SFT+RL 데이터 효율성 및 향상된 벤치마크 성능

85개 환경에서 1,622개의 SFT 트젝토리와 953개의 RL 트젝토리를 합성하고 BFCLv3, MCP-Atlas, 𝜏²-Bench, VitaBench에서 모델 성능을 크게 향상시킨다.

환경 스케일링의 데이터 효율성 분석

적은 수의 환경으로도 2,575개의 트젝을 생성하고, 환경 확장의 효용과 한계를 분석한다.

핵심 아이디어 이해하기

단락 1: 도구 사용 기반 에이전트 학습은 실행 가능한 환경과 실제 데이터가 필수적이다. 기존 방식은 비용 문제(생산 API) 혹은 비현실적 시뮬레이션에 의존해 일반화에 한계가 있다. 단락 2: EnvFactory는 EnvGen으로 authentic 온라인 소스에서 실행 가능한 환경을 구성하고, 토폴로지 그래프를 통해 도구 간 관계를 명확히 한다. 이를 바탕으로 도구 사용 시퀀스의 설계와 검증이 가능하다. 단락 3: QueryGen은 topology-aware sampling으로 도구 체인을 구성하고, 세 단계 보정(암시성, 중복 제거, 목표 확장)을 거쳐 자연스러운 질의를 생성한다. 이를 통해 학습 시나리오의 현실감을 높인다. 단락 4: 학습 측면에서 SFT로 기초 행동을 학습한 뒤 RL로 정책의 실행 신뢰성 및 일반화 능력을 향상시킨다. 데이터 효율성과 벤치마크 성능 개선이 실현된다.

방법론

환경 구성: EnvGen은 후보 환경을 제시하고 Authentic 소스로부터 m, D, π, Ve를 포함하는 e_new를 만든다. 테스트 엔진은 도구 인터페이스 일치성, 도구 실행, 기대 상태 전이의 정합성을 확인한다. 의존성 그래프: 도구의 입력/출력 파라미터를 임베딩하고 코사인 유사도를 통해 간선을 구성하며, 이후 LLM으로 추가 의존성을 정제한다. 토폴로지 기반 샘플링: 입력 파라미터를 External/Internal로 분류하고, 의존성을 만족시키며 BFS로 이웃 노드를 확장한다. 다Turn 트젝 합성: Subgoal decomposition + Goal articulation으로 자연스러운 질의를 만들고, 암시적 의도와 모호성을 보정한다. 학습 및 보상: SFT로 초기화하고 GRPO 기반 RL에서 트젝-상호작용과 상태 등가를 보상으로 삼아 학습한다.

주요 결과

주요 벤치마크: BFCLv3에서 Qwen3-1.7B는 16.75에서 23.25로, Qwen3-4B는 33.50에서 44.25로 상승했다. 𝜏²-Bench에서 Qwen3-1.7B는 14.61에서 15.57로, Qwen3-4B는 38.60에서 47.37로 향상됐다. MCP-Atlas에서 Qwen3-4B의 Pass Rate는 4.12에서 7.90으로, Qwen3-8B는 5.15에서 8.25로 증가하고 Mean Coverage도 22.86에서 25.98로 증가했다. VitaBench에서 Qwen3-1.7B는 1.33에서 6.33으로, Qwen3-4B는 7.67에서 11.33으로 상승했다. RL 후속: Qwen3-1.7B에서 18.60에서 19.74, Qwen3-4B에서 27.29에서 30.77, Qwen3-8B에서 30.82에서 33.40으로 향상됐다. 환경 스케일링: 85환경에서 2,575 트젝을 생성했고, 50/75환경의 경우 성능 증가가 더딘 반면 85환경에서 더 높은 성능을 보였다.

실무 활용

실제 도구 환경에서의 에이전트 학습을 위한 확장 가능한 자동화 프레임워크

대규모 도구 생태계에서의 자동 툴 사용 에이전트 교육
다양한 도메인에서의 데이터 효율적인 RL 트레이닝
원격 MCP 서버를 통한 안전한 에이전트 시뮬레이션

코드 공개 여부: 공개

코드 저장소 보기

키워드

EnvFactoryAgentic Reinforcement Learningtool-useExecutable EnvironmentsTopology-aware samplingTrajectory synthesisBFCLv3MCP-Atlas𝜏²-BenchVitaBench