핵심 요약
기존의 AI 에이전트는 한 번의 실행으로 종료되는 정적인 구조여서 시행착오를 통해 배우는 과학적 탐구 방식에 적합하지 않았습니다. EvoMaster는 스스로 가설을 수정하고 실험 데이터를 축적하며 진화하는 프레임워크를 제공하여, 사람이 개입하지 않아도 수백 번의 실험 사이클을 돌며 스스로 연구 역량을 높이는 '에이전트 과학(Agentic Science)' 시대를 앞당깁니다.
왜 중요한가
기존의 AI 에이전트는 한 번의 실행으로 종료되는 정적인 구조여서 시행착오를 통해 배우는 과학적 탐구 방식에 적합하지 않았습니다. EvoMaster는 스스로 가설을 수정하고 실험 데이터를 축적하며 진화하는 프레임워크를 제공하여, 사람이 개입하지 않아도 수백 번의 실험 사이클을 돌며 스스로 연구 역량을 높이는 '에이전트 과학(Agentic Science)' 시대를 앞당깁니다.
핵심 기여
EvoMaster 기초 에이전트 프레임워크
약 100줄의 코드만으로 다양한 과학 분야에 적용 가능한 자율 진화형 에이전트를 구축할 수 있는 도메인 불가지론적(Domain-agnostic) 베이스 하네스를 제공함.
지속적 자기 진화 메커니즘
단일 실행에 그치지 않고 멀티 턴 반응형 루프를 통해 가설 수립, 실험, 자기 비판, 전략 수정을 반복하며 지식을 축적하는 구조를 구현함.
SciMaster 에코시스템 구축
머신러닝(ML-Master 2.0), 물리학(PhysMaster), 웹 정보 검색(Browse-Master) 등 6개 이상의 전문 과학 도메인 에이전트를 성공적으로 인큐베이팅함.
4대 권위적 벤치마크 SOTA 달성
HLE, MLE-Bench Lite, BrowseComp, FrontierScience에서 기존 OpenClaw 대비 최대 +316%의 상대적 성능 향상을 기록하며 최첨단 성능을 입증함.
핵심 아이디어 이해하기
기존의 LLM 에이전트는 주어진 프롬프트에 대해 한 번의 추론(Inference)과 도구 사용으로 결과를 내는 'Stateless' 방식에 머물러 있었습니다. 이는 수많은 실패와 가설 수정을 거치는 실제 과학 연구의 반복적 특성을 반영하지 못합니다. EvoMaster는 에이전트의 동작을 단순한 작업 수행이 아닌, 지속적인 가중치 업데이트가 없는 환경에서도 '인지적 진화'가 가능한 루프로 재정의했습니다.
핵심은 에이전트 엔진 내부에 통합된 Context Manager와 자기 비판(Self-critique) 루프입니다. 에이전트가 실험 결과를 관찰하면, 이를 바탕으로 이전 가설의 오류를 분석하고 다음 단계의 전략을 수정합니다. 이 과정에서 발생하는 방대한 대화 기록은 LLM 기반의 동적 요약 및 슬라이딩 윈도우 기법을 통해 압축되어, 수백 번의 실험 턴이 지나도 핵심 문맥을 잃지 않고 지식을 누적할 수 있게 합니다.
결과적으로 EvoMaster는 고정된 알고리즘이 아니라, 실험 데이터라는 피드백을 통해 자신의 논리 전개 방식을 스스로 최적화하는 시스템입니다. 이는 마치 연구자가 실험 노트를 쓰며 다음 실험을 설계하는 과정을 디지털 에이전트 아키텍처로 그대로 옮겨온 것과 같습니다.
관련 Figure

시간이 지날수록 에이전트의 성능이 우상향하는 것을 통해 '지속적 자기 진화' 메커니즘이 실제로 작동하여 더 나은 솔루션을 찾아내고 있음을 보여줍니다.
시간 경과에 따른 MLE-Bench에서의 메달 획득률 변화를 보여주는 라인 차트입니다.
방법론
EvoMaster는 실행(Execution)과 역량(Capability) 계층을 분리한 3층 구조의 모듈형 아키텍처를 채택했습니다. Playground(오케스트레이션), Exp(실험 실행), Agent(지능) 레이어로 구분되어, 특정 도메인의 지식이 바뀌더라도 하부의 추론 로직이나 도구 사용 인터페이스는 그대로 재사용할 수 있습니다. [도메인 설정 입력 → 레이어별 모듈 결합 → 독립적 에이전트 생성] 과정을 통해 확장성을 확보했습니다.
에이전트 엔진은 'Reason → Invoke Tools → Observe → Self-critique'로 이어지는 멀티 턴 반응형 루프를 실행합니다. 각 단계에서 모델은 현재 상태를 분석하고 도구를 호출한 뒤, 출력된 결과값(Observation)을 입력으로 받아 자신의 논리가 맞았는지 검증합니다. [실험 결과값 입력 → 비판 로직 연산 → 수정된 가설 출력] 순으로 계산이 반복되며 에이전트의 판단 정확도가 점진적으로 상승합니다.
또한 Model Context Protocol(MCP)을 준수하는 Tool System을 통합하여 외부의 과학 도구들을 즉시 에이전트의 기능으로 변환합니다. 복잡한 협업이 필요한 경우 Agent Slots 메커니즘을 통해 Solver, Critic, Rewriter 등의 역할을 선언적으로 할당하고, 이들이 서로의 결과물을 검토하며 공동 진화(Co-evolution)하는 멀티 에이전트 토폴로지를 구성합니다.
관련 Figure

중앙의 자기 진화 코어를 중심으로 Playground, Agent Engine, Context Manager 등 핵심 모듈이 어떻게 상호작용하는지 보여주며, 상단의 다양한 도메인 에이전트들이 이 공통 기반을 어떻게 공유하는지 설명합니다.
EvoMaster 프레임워크의 전체 아키텍처와 SciMaster 에코시스템을 설명하는 다이어그램입니다.
주요 결과
MLE-Bench Lite에서 EvoMaster는 75.8%의 메달 획득률을 기록하며 OpenClaw(18.2%) 대비 316%의 압도적인 성능 향상을 보였습니다. 특히 22개의 Kaggle 대회 중 17개에서 메달을 획득했으며, 이는 지식 프리페칭(Knowledge Prefetch)과 최대 20라운드에 달하는 병렬 연구 개선 프로세스가 유효했음을 증명합니다.
BrowseComp 벤치마크에서는 73.3%의 정확도를 달성하여 대조군 대비 159% 향상된 결과를 얻었습니다. Planner-Executor 루프를 통해 최대 10라운드 동안 웹 정보를 심층 탐색하고 소스 간 교차 검증을 수행함으로써, 단발성 검색에 의존하는 기존 에이전트의 한계를 극복했습니다. FrontierScience와 HLE에서도 각각 53.3%(+191%), 41.1%(+202%)의 점수를 기록하며 수학, 컴퓨터 과학, 인문학을 아우르는 광범위한 전문 지식 활용 능력을 입증했습니다.
관련 Figure

EvoMaster가 모든 지표에서 OpenClaw를 압도하며, 특히 MLE-Bench에서 316%라는 경이로운 상대적 향상을 보였음을 시각화합니다. 이는 프레임워크의 범용성과 강력한 성능을 동시에 입증하는 핵심 증거입니다.
네 가지 주요 벤치마크(HLE, MLE-Bench, BrowseComp, Frontier Science)에서 EvoMaster와 OpenClaw의 성능을 비교한 막대 그래프입니다.
기술 상세
EvoMaster의 아키텍처는 'Modular Composability'를 극대화하기 위해 설계되었습니다. 모든 에이전트 설정은 YAML 기반의 Configuration Manifest로 관리되어 소스 코드 수정 없이 프롬프트나 파라미터를 동적으로 변경할 수 있습니다. 이는 실험의 재현성(Reproducibility)을 보장하는 핵심 요소로 작동합니다.
지능 계층에서는 LiteLLM을 추상화 레이어로 사용하여 100개 이상의 모델을 동일한 인터페이스로 호출할 수 있게 설계되었습니다. 특히 장기 실험 시 발생하는 컨텍스트 포화 문제를 해결하기 위해, 계층적 인지 캐싱(Hierarchical Cognitive Caching)을 도입했습니다. 이는 라운드 수준의 지식 홍보(Promotion)와 실행 수준의 지혜 홍보를 통해 과거의 통찰을 현재의 추론에 효율적으로 주입합니다.
Trajectory System은 모든 대화 턴, 도구 호출, 토큰 통계를 스레드 안전한 JSON 구조로 기록합니다. 이는 연구자의 실험 노트와 같은 역할을 하며, 사후 분석 및 에이전트의 행동 패턴 최적화를 위한 데이터셋으로 활용될 수 있습니다. Prior work인 ML-Master와 비교했을 때, 특정 도메인에 종속되지 않는 범용적인 'Playground' 개념을 도입한 것이 가장 큰 기술적 차별점입니다.
한계점
현재 EvoMaster는 주로 인실리코(in silico) 및 계산 연구 워크플로에 최적화되어 있습니다. 자동화된 클라우드 랩이나 로봇 합성 하드웨어와 같이 물리적 실험 장치를 직접 제어하는 기능은 아직 내장되어 있지 않으며, 향후 표준 실험실 자동화 프로토콜과의 인터페이스 확장이 필요합니다.
실무 활용
EvoMaster는 연구실의 반복적인 실험 업무나 데이터 분석 과정을 자동화하려는 개발자와 연구자에게 즉시 적용 가능한 프레임워크입니다.
- Kaggle 등 머신러닝 경진대회 파이프라인 자동 최적화 및 코드 생성
- 수백 개의 웹 페이지를 탐색하여 특정 과학 주제에 대한 심층 문헌 조사 및 요약
- 물리학 및 화학 분야의 복잡한 수식 계산 및 가설 검증 루프 구축
- 다양한 LLM 백엔드(GPT, Claude 등)를 교체해가며 수행하는 과학적 추론 실험 제어
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.