핵심 요약
기존 LLM 에이전트는 프롬프트에만 의존해 복잡한 제어가 어렵거나 Python 코드와 강하게 결합되어 유지보수가 힘들었다. AgentSPEX는 이를 해결하기 위해 YAML 기반의 선언적 언어를 도입하여 비개발자도 복잡한 에이전트 워크플로를 설계하고 정밀하게 제어할 수 있는 환경을 제공한다.
왜 중요한가
기존 LLM 에이전트는 프롬프트에만 의존해 복잡한 제어가 어렵거나 Python 코드와 강하게 결합되어 유지보수가 힘들었다. AgentSPEX는 이를 해결하기 위해 YAML 기반의 선언적 언어를 도입하여 비개발자도 복잡한 에이전트 워크플로를 설계하고 정밀하게 제어할 수 있는 환경을 제공한다.
핵심 기여
선언적 YAML 기반 에이전트 명세 언어
에이전트의 동작을 사람이 읽기 쉬운 YAML 파일로 정의하며, 명시적인 제어 흐름과 모듈화된 구조를 지원한다.
정밀한 컨텍스트 및 상태 관리
각 단계별로 LLM에 전달되는 대화 이력을 직접 제어할 수 있는 기능을 제공하여 컨텍스트 저하 문제를 방지하고 비용 효율성을 높인다.
통합 에이전트 하네스 및 샌드박스
Docker 기반의 격리된 환경에서 50개 이상의 도구를 안전하게 실행하며, 체크포인트 저장 및 재개 기능을 통해 장기 실행 워크플로의 안정성을 보장한다.
양방향 시각적 에디터
드래그 앤 드롭 방식의 그래프 뷰와 YAML 코드 뷰가 실시간으로 동기화되는 인터페이스를 통해 워크플로 저작 편의성을 극대화했다.
핵심 아이디어 이해하기
기존의 ReAct 방식 에이전트는 하나의 시스템 프롬프트에 의존해 추론과 도구 사용을 반복한다. 이는 Transformer 아키텍처의 Attention 메커니즘이 처리해야 할 대화 이력이 길어질수록 핵심 정보를 놓치는 '컨텍스트 저하' 현상을 유발하며, 복잡한 분기나 반복 로직을 수행할 때 모델의 지시 이행 능력이 급격히 떨어진다.
AgentSPEX는 이러한 문제를 해결하기 위해 에이전트의 사고 과정을 명시적인 그래프 구조로 분해한다. 워크플로의 각 단계를 독립적인 연산 단위로 정의하고, Mustache 템플릿 엔진을 활용해 필요한 변수만 선택적으로 주입한다. 이는 모델이 현재 단계에서 해결해야 할 문제에만 집중할 수 있도록 Attention의 범위를 좁혀주는 역할을 한다.
결과적으로 복잡한 로직을 LLM의 자율적 판단에만 맡기는 대신, 검증된 워크플로 엔진이 제어 흐름을 관리하게 함으로써 실행의 재현성과 신뢰성을 확보한다. 이는 대규모 언어 모델을 단순한 챗봇이 아닌, 예측 가능한 소프트웨어 컴포넌트로 활용할 수 있게 한다.
방법론
전체 시스템은 Agent Definition(YAML), Agent Harness(실행기), Sandbox Environment(격리 환경)의 세 부분으로 구성된다. 사용자가 YAML로 워크플로를 정의하면 Interpreter가 이를 해석하여 실행 가능한 단계로 변환한다.
핵심 메커니즘은 task와 step이라는 두 가지 호출 타입이다. task는 이전 이력이 없는 새로운 대화를 시작하고, step은 기존 대화 이력을 유지하며 상호작용한다. [입력 변수 → Mustache 템플릿 치환 → LLM 프롬프트 생성 → 출력 저장] 순으로 데이터가 흐르며, save_as 구문을 통해 출력값을 컨텍스트 변수에 할당하여 다음 단계에서 재사용한다.
실행 엔진은 Docker 기반 샌드박스 내에서 MCP(Model Context Protocol)를 통해 외부 도구와 통신한다. 각 단계가 완료될 때마다 [현재 변수 상태 + 대화 이력 + 샌드박스 스냅샷]을 체크포인트로 저장한다. 오류 발생 시 저장된 체크포인트를 불러와 실패한 지점부터 즉시 재개할 수 있는 구조를 갖추고 있다.
관련 Figure

YAML 기반의 에이전트 정의가 시각적 에디터와 상호작용하며, 인터프리터를 거쳐 Docker 샌드박스 환경에서 실행되는 전체 흐름을 보여준다. 체크포인트, 트레이스 리플레이 등 안정적인 실행을 위한 내구성 시스템의 구성 요소를 확인할 수 있다.
AgentSPEX의 전체 아키텍처 다이어그램
주요 결과
SciBench, StemEZ, ChemBench 등 7개의 주요 벤치마크에서 기존 CoT(Chain-of-Thought) 및 ReAct 베이스라인을 모두 상회하는 성적을 거두었다. 특히 수학 문제 해결 능력을 측정하는 AIME 2025 벤치마크에서는 100%의 정확도를 기록했다.
과학 분야 벤치마크인 ChemBench에서는 ReAct 대비 5.5% 향상된 83.30%를 기록했으며, 논문 이해도를 측정하는 ELAIPBench에서는 CoT 대비 6.5% 높은 43.70%의 성능을 보였다. 이는 복잡한 추론 단계가 필요한 작업일수록 AgentSPEX의 명시적 제어 구조가 효과적임을 입증한다.
사용자 연구 결과, 참가자들은 LangGraph와 같은 기존 프레임워크에 비해 AgentSPEX가 가독성이 높고 워크플로 작성이 훨씬 쉽다고 평가했다. 특히 비프로그래머도 에이전트의 동작을 이해하고 수정할 수 있다는 점이 주요 장점으로 꼽혔다.
기술 상세
AgentSPEX 아키텍처는 선언적 명세와 명령적 실행을 분리한다. YAML 명세는 if/switch(조건문), while/for_each(반복문), parallel/gather(병렬 실행) 등 프로그래밍 언어 수준의 제어 구조를 지원한다. 모든 워크플로는 call 키워드를 통해 다른 워크플로를 서브모듈로 호출할 수 있는 재귀적 구조를 가진다.
상태 관리는 전역 변수가 아닌 명시적인 컨텍스트 변수 바인딩을 통해 이루어진다. 이는 LLM의 고질적인 문제인 '컨텍스트 전이(Context Drift)'를 방지하기 위해 각 단계마다 필요한 정보만 필터링하여 전달하는 메커니즘을 내장하고 있다. 또한 Lean이나 Isabelle 같은 정형 검증 언어와 연동하여 에이전트의 실행 경로가 사전에 정의된 조건을 만족하는지 검증할 수 있는 기반을 마련했다.
구현 측면에서 Agent Harness는 Docker VM 내에서 Chromium 브라우저, 파일 시스템 접근, 코드 실행기 등 50개 이상의 도구를 제공한다. 모든 도구 호출은 MCP 표준을 준수하여 확장성을 확보했으며, 증분 방식의 rsync를 이용한 워크스페이스 백업 시스템을 통해 대규모 프로젝트 수행 시 데이터 유실을 방지한다.
한계점
사용자 연구 결과, 매우 복잡하고 동적인 다단계 에이전트 워크플로를 구축할 때는 여전히 LangGraph와 같은 코드 기반 프레임워크의 유연성을 선호하는 경향이 확인되었다. 또한 현재는 단일 에이전트 워크플로에 최적화되어 있어, 고도화된 멀티 에이전트 오케스트레이션 기능은 향후 과제로 남아있다.
실무 활용
AgentSPEX는 복잡한 연구 보조, 소프트웨어 엔지니어링, 과학적 탐구 등 장기적인 워크플로가 필요한 에이전트 개발에 즉시 활용 가능하다.
- Deep Research: 다단계 검색 전략을 통해 특정 주제에 대한 심층 보고서 자동 생성
- AI Scientist: 가설 설정부터 관련 문헌 조사, 연구 제안서 작성까지의 전 과정 자동화
- AI Advisor: 학술 논문이나 제안서를 입력받아 루브릭 기반의 상세 리뷰 및 피드백 제공
- Software Engineering: 복잡한 코드베이스 내 버그 수정 및 패치 생성 워크플로 관리
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

왼쪽의 노드 기반 플로우차트와 오른쪽의 YAML 코드 편집기가 동기화되어 작동하는 모습을 보여준다. 복잡한 루프와 병렬 처리가 포함된 딥러닝 연구 워크플로가 시각적으로 어떻게 표현되는지 예시를 제공한다.
AgentSPEX 시각적 에디터 인터페이스 스크린샷
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.