핵심 요약
기존 AI 에이전트의 복잡한 제어 로직은 코드 내부에 파묻혀 있어 재사용이나 비교가 어려웠다. 이 논문은 이러한 로직을 자연어 형태의 실행 가능한 유물로 분리하여, 에이전트의 행동을 더 쉽게 수정하고 표준화된 런타임에서 실행할 수 있는 체계를 제시하여 에이전트 개발의 효율성을 높인다.
왜 중요한가
기존 AI 에이전트의 복잡한 제어 로직은 코드 내부에 파묻혀 있어 재사용이나 비교가 어려웠다. 이 논문은 이러한 로직을 자연어 형태의 실행 가능한 유물로 분리하여, 에이전트의 행동을 더 쉽게 수정하고 표준화된 런타임에서 실행할 수 있는 체계를 제시하여 에이전트 개발의 효율성을 높인다.
핵심 기여
NLAH(Natural-Language Agent Harnesses) 정의
에이전트의 제어 로직을 자연어로 표현하고 편집 가능한 구조적 형태로 정형화하여 로직의 이식성과 가독성을 확보했다.
IHR(Intelligent Harness Runtime) 개발
NLAH를 직접 해석하고 실행하며, 공통 런타임 정책과 작업별 로직을 분리하여 에이전트 실행 환경을 표준화했다.
제어 패턴의 모듈화 및 절제 연구
자기 진화, 파일 기반 상태 관리 등 핵심 제어 모듈을 분리하여 에이전트 성능에 미치는 영향을 정량적으로 분석하고 최적의 조합을 확인했다.
코드-텍스트 하네스 마이그레이션 검증
기존 코드로 구현된 에이전트 로직을 NLAH로 변환했을 때 성능이 유지되거나 오히려 향상됨을 OSWorld 벤치마크 등을 통해 입증했다.
핵심 아이디어 이해하기
에이전트의 성능은 모델 자체보다 이를 제어하는 '하네스(Harness)' 로직에 의해 크게 좌우된다. 하지만 기존에는 이 로직이 파이썬 코드나 특정 프레임워크에 종속되어 있어, 모델을 바꾸거나 로직을 개선할 때마다 코드를 대대적으로 수정해야 하는 한계가 있었다.
이 논문은 하네스 로직 자체를 자연어로 작성된 '실행 파일'처럼 취급하는 아이디어를 제안한다. NLAH는 에이전트가 지켜야 할 계약(Contract), 역할(Role), 단계별 구조(Stage)를 자연어로 명시하며, IHR은 이 지침을 읽고 루프 내에서 LLM을 호출하여 다음 행동을 결정하는 해석기 역할을 수행한다.
이러한 접근은 개발자가 코드를 수정하지 않고도 자연어 지침만 변경하여 에이전트의 복잡한 워크플로우를 조정할 수 있게 한다. 실험 결과, 명시적인 구조화는 에이전트가 단순히 프롬프트에 의존할 때보다 체계적으로 문제를 해결하게 하며, 특히 긴 작업 과정에서의 상태 관리와 오류 복구 능력을 크게 향상시킨다.
방법론
NLAH는 에이전트의 행동을 규정하는 네 가지 핵심 요소를 포함한다. 입력/출력 제약 조건인 Contracts, Solver나 Verifier 등의 Roles, 작업 흐름을 정의하는 Stage structure, 그리고 상태 저장 방식을 규정하는 State semantics로 구성된다.
IHR(Intelligent Harness Runtime)은 세 가지 구성 요소로 작동한다. NLAH 로직을 실시간으로 해석하는 In-loop LLM, 터미널 도구와 멀티 에이전트 인터페이스를 제공하는 Backend, 그리고 모든 에이전트가 공통적으로 준수해야 할 실행 정책을 정의하는 Runtime Charter로 나뉜다.
에이전트 호출(Agent Call)은 수학적으로 AgentCall(T, Ω_in_t) = (At, ΔΩt, yt)로 정의된다. 작업 정의 T와 현재 환경 상태 Ω_in_t를 입력으로 받아 에이전트를 실행하고, 그 결과로 생성된 아티팩트 At, 환경 변화량 ΔΩt, 최종 응답 yt를 출력한다. 이는 단일 모델 호출을 구조화된 작업 단위로 추상화하여 복잡한 위임 구조를 가능하게 한다.
파일 기반 상태(File-backed state) 모듈은 에이전트의 상태를 경로 주소 지정이 가능한(path-addressable) 아티팩트로 외부화한다. 이는 컨텍스트 윈도우 제한 문제를 해결하고, 작업 중단 후 재시작 시에도 이전 상태를 정확히 복구할 수 있는 안정성을 제공한다.
주요 결과
SWE-bench Verified 벤치마크에서 TRAE 하네스를 적용한 Full IHR 설정은 74.4%의 해결률을 기록했다. 이는 런타임 스킬이나 하네스 로직을 제거했을 때(75.2%~76.0%)와 수치상 유사하지만, 실제로는 훨씬 더 많은 도구 호출과 토큰을 사용하여 복잡한 탐색과 검증 과정을 거쳤음을 보여준다.
OSWorld(컴퓨터 사용) 벤치마크에서는 기존 코드로 구현된 OS-Symphony(30.4%)를 NLAH로 마이그레이션했을 때 성능이 47.2%로 크게 향상되었다. 이는 자연어 기반의 명시적 구조가 GUI 환경에서의 오류 복구와 상태 관리에 더 효과적임을 입증한다.
Ablation Study 결과, 자기 진화(Self-evolution) 모듈 추가 시 SWE-bench에서 +4.8%p의 성능 향상이 있었으며, 파일 기반 상태 모듈은 OSWorld에서 +5.5%p의 이득을 주었다. 반면, 다중 후보 탐색(Multi-candidate search)은 비용 대비 효율이 낮게 나타나 작업 특성에 따른 모듈 선택의 중요성을 확인했다.
기술 상세
하네스 설계 패턴을 런타임 정책(Runtime Charter)과 작업군 로직(Harness Skill)으로 계층화하여, 고수준 제어 로직을 이식 가능한 객체로 분리했다. 이는 에이전트 시스템을 단순한 모델 래퍼가 아닌 일급 시스템 객체(first-class systems object)로 취급하게 한다.
상태 관리 시스템은 STATE_ROOT 하위의 정형화된 워크스페이스 구조를 강제한다. 에이전트의 중간 결과물과 실행 이력을 파일 시스템에 기록함으로써, 컨텍스트 윈도우의 물리적 한계를 극복하고 실행 과정 전반에 대한 정밀한 감사(Audit)를 가능하게 한다.
IHR은 GPT-5.4 모델과 Codex CLI 환경에서 구현되었으며, 모든 작업은 재현성과 보안을 위해 Docker 컨테이너 내의 샌드박스 환경에서 실행된다. 각 컨테이너는 32 vCPUs, 84 GiB 메모리, 40 GiB 저장 공간의 캡을 적용하여 공정한 벤치마크 환경을 구축했다.
한계점
자연어는 코드보다 정밀도가 낮아 일부 세부적인 하네스 메커니즘을 완벽하게 복구하지 못할 수 있다. 또한 런타임 오염(Runtime contamination) 위험이 있어, 공유 런타임이 하네스 텍스트의 의도와 다른 행동을 수행할 가능성이 존재한다.
실무 활용
복잡한 워크플로우를 가진 AI 에이전트를 개발할 때, 제어 로직을 코드가 아닌 자연어로 관리하여 유지보수성과 이식성을 극대화할 수 있다.
- 소프트웨어 엔지니어링 자동화 에이전트의 복잡한 디버깅 및 수리 루프 설계
- GUI 기반 컴퓨터 조작 에이전트의 상태 관리 및 오류 복구 로직 표준화
- 서로 다른 LLM 런타임 간의 에이전트 제어 로직 이식 및 성능 비교 평가
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.