MCP-Cosmos: MCP 환경에서 World Model로 보강된 에이전트의 복잡한 작업 실행

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

MCP의 도메인에서 단순히 반응적으로 작동하는 에이전트의 한계를 극복하기 위해, 환경의 다이나믹스를 예측하는 World Model을 도입한다. 이를 통해 실행 전 latent 공간에서 경로를 시뮬레이션하고 합리적 계획을 보강함으로써 tool 호출의 실패를 줄이고 파라미터 정확성을 높이며 Execution Quality를 신설하는 등 실용적 지표를 제시한다. MCP-Bench에서의 대규모 실험은 평균적으로 도구 선택과 실행 효율성에서 개선을 확인하게 한다.

왜 중요한가

MCP의 도메인에서 단순히 반응적으로 작동하는 에이전트의 한계를 극복하기 위해, 환경의 다이나믹스를 예측하는 World Model을 도입한다. 이를 통해 실행 전 latent 공간에서 경로를 시뮬레이션하고 합리적 계획을 보강함으로써 tool 호출의 실패를 줄이고 파라미터 정확성을 높이며 Execution Quality를 신설하는 등 실용적 지표를 제시한다. MCP-Bench에서의 대규모 실험은 평균적으로 도구 선택과 실행 효율성에서 개선을 확인하게 한다.

핵심 기여

BYOWM Architecture

모듈식 에이전트 전략으로 서로 다른 World Models를 MCP 생태계에 통합하는 프레임워크를 제시한다.

Benchmarking Predictive Efficiency

300+ trajectories를 활용한 실험에서 World Model이 도구 선택 및 파라미터 정확도에 미치는 영향과 효율성을 비교 분석한다.

Evaluation Gap Analysis

현 평가 방법의 한계를 분석하고 Execution Quality라는 새로운 지표를 제안하여 실행 효율성 및 도구 사용 비용을 동시에 반영한다.

New Evaluation Metric: Execution Quality

Tool Call Success와 Avg Tool Calls의 조합으로, 탐색 비용과 실행 성공률을 함께 평가하는 지표를 정의한다.

World Model Infused Planning & Execution

World Model 시뮬레이션 기반의 proactive planning과 실환경 실행의 결합으로 도구 사용의 정확도와 병렬 실행 가능성을 높인다.

핵심 아이디어 이해하기

문제 정의: MCP 환경에서의 Task 수준 계획은 실행 시나리오의 동적 변화를 반영하지 못하고, 반대로 실행은 장기적 계획이 부족하다. 이 둘의 간극을 World Model로 메운다.
해결 원리: World Model은 P(st+1|st, at)와 같은 환경 전이 모델을 통해 latent 공간에서 시뮬레이션을 수행하고, 이를 바탕으로 plan을 보정한다. Phase 1에서는 시뮬레이션으로 도플 계획을 생성하고 Phase 2에서 실제 MCP 도구를 실행한다.
달라지는 점: 시뮬레이션 기반 계획으로 탐색 폭을 축소하고 실행 비용을 줄이며, Execution Quality 같은 새로운 지표를 통해 도구 호출의 효율성을 평가한다.

방법론

WorldModel 인터페이스를 정의하고, tool_call과 user_request를 입력으로 받아 simulate가 latent 공간에서 관찰을 반환하도록 한다. 2) WMInfusedAgent는 생성 모델 이름, 반복 횟수, 실행 재Revision 여부, WorldModel 인스턴스를 받아 execute(task)를 수행한다. 3) 알고리즘은 MULTITURNWITHWORLDMODEL(u, Tmax, WorldModel)로 기술되며, 초기 상태를 기반으로 plan을 생성하고 τwm에 (at, o˜t) 쌍을 축적한 뒤 최적의 P를 선택한다. 4) 실제 실행 단게에서 실패 시 πplan_adjust로 수정 가능하나 벤치마킹에서는 제외한다. 5) 실행 후 τ에 (at, ot)을 기록하고 최종 answer를 생성한다.

주요 결과

주요 벤치마크: MCP-Bench 기반의 24개 시나리오에서 300+ trajectories를 분석했다. SPIRAL-Exec + GPT-OSS-120B WM이 44.8%로 최상위 성능을 보였고, ReAct-Plan-Exec + claude-sonnet-4.6-WM이 42.4%로 그다음으로 나타났다. Arctic-AWM-4B-WM은 대부분의 구성에서 일반-purpose LLM 대비 성능이 뒤처지기도 했다. 토큰 사용 측면에서 baseline ReAct는 평균 49,995 토큰/작업으로 가장 효율적이었고, SPIRAL-Exec + Arctic-AWM-4B-WM은 301,908 토큰/작업으로 가장 많은 토큰을 사용했다. 전체 토큰 합계는 745K에서 7M 사이로 나타났으며, 월드 모델은 추론 Iteration을 줄이되 시뮬레이션 비용을 증가시키는 경향이 있다.

Ablation 연구: CLAUDE-SONNET-4.6를 플래너로 사용할 때도 월드 모델을 도입하면 Tool Call 수와 실행 품질 간의 trade-off가 달라짐을 보였으며, 플래너의 강도가 커질수록 explicit WM의 효용이 커진다. SPIRAL+AWM-4B-WM 조합은 낮은 Tool Call 수를 유지하면서도 실행 품질을 높이는 경향이 나타났다.

기술 상세

WorldModel 클래스: init(model_name, **kwargs)로 초기화, async def simulate(tool_call, user_request, context=None) -> Dict[str, Any]로 시뮬레이션 수행, repr 및 to_dict로 표현. 2) WMInfusedAgent: init(generation_model_name, max_iterations, execute_w_revision, world_model=None) -> None, async def execute(task) -> Dict[str, Any]로 실행 결과를 반환. 3) 알고리즘 구조: Phase 1에서 WorldModel을 사용해 o˜t를 생성하고 τwm에 누적한 뒤 최적 Plan P를 선택. Phase 2에서 P의 각 at에 대해 실제 ot를 얻고 실패 시 πplan_adjust로 수정한다. 4) 실험 구성: 2/3-server MCP-벤치 시나리오, 24개 TASK, 300+ trajectory, 7개 구성. 5) 평가 지표: Task Completion, Tool Selection, Planning Effectiveness, Execution Quality, Overall. Execution Quality은 Tool Call Success와 Avg Tool Calls의 결합으로 계산한다. 6) Token usage: gpt-oss-120b planner 기반에서 토큰 사용 분석 및 비용 구성은 Appendix A에 자세히 기술.

한계점

실험은 MCP-Bench의 고정된 환경에 의존하며, 실세계의 다이나믹한 도메인 변화에 대한 온라인 학습을 반영하지 않는다. CLAUDE-SONNET-4.6과 같은 고사양 모델의 컴퓨팅 비용은 높아 latency가 문제될 수 있다. Execution Quality는 cohort별 min-max 정규화를 사용해 일반화 가능성이 제한될 수 있다. 또한 본 연구는 Solver의 확정성 여부에 따라 결과가 달라질 수 있다.

실무 활용

월드 모델 기반의 예측적 계획은 MCP를 사용하는 에이전트의 도구 사용 효율성과 실행 안정성을 높인다. 특히 다-서버 환경에서 도구 의존성 관리와 실패 복구를 개선하는 데 기여한다.

다중 MCP 서버 간 협업이 필요한 자동화 워크플로의 계획-실행 파이프라인 구축
도구 호출의 실패 확률이 높은 환경에서 실행 품질(Execution Quality) 향상을 위한 시뮬레이션 기반 계획 도입
비용·지연을 고려한 도구 호출 최소화 및 병렬 실행 최적화

코드 공개 여부: 비공개

키워드

MCPWorld ModelBYOWMReActSPIRALtool usageExecution QualityMCP-Bench