핵심 요약
기존 멀티 에이전트 시스템은 고정된 워크플로우와 특정 프레임워크에 종속되어 복잡한 실무 문제를 해결하는 데 한계가 있다. 이 논문은 에이전트를 '인재'로 정의하고 기업 조직 구조를 모방한 관리 계층을 도입하여, 스스로 팀을 구성하고 학습하며 진화하는 자율 AI 조직의 가능성을 제시한다.
왜 중요한가
기존 멀티 에이전트 시스템은 고정된 워크플로우와 특정 프레임워크에 종속되어 복잡한 실무 문제를 해결하는 데 한계가 있다. 이 논문은 에이전트를 '인재'로 정의하고 기업 조직 구조를 모방한 관리 계층을 도입하여, 스스로 팀을 구성하고 학습하며 진화하는 자율 AI 조직의 가능성을 제시한다.
핵심 기여
Talent-Container 아키텍처
에이전트의 인지적 정체성(Talent)과 실행 환경(Container)을 분리하여 LangGraph, Claude Code 등 서로 다른 백엔드를 가진 에이전트들이 하나의 조직 내에서 협업할 수 있는 표준 인터페이스를 제공한다.
Explore-Execute-Review (E²R) 트리 탐색
프로젝트 수행을 조직적 전략 탐색 과정으로 모델링하여, 작업을 동적으로 분해하고 실행 결과를 검토하여 실패 시 새로운 경로를 탐색하는 계층적 루프를 구현한다.
커뮤니티 기반 Talent Market
필요한 역량이 조직 내에 없을 때 외부 시장에서 검증된 에이전트 패키지를 실시간으로 채용하고 온보딩하는 동적 인력 충원 메커니즘을 도입한다.
조직 및 개인 차원의 자기 진화 시스템
CEO와의 면담, 사후 검토(Post-mortem), 표준 운영 절차(SOP) 업데이트를 통해 모델 재학습 없이도 에이전트와 조직 전체의 업무 능력이 지속적으로 개선되도록 설계했다.
핵심 아이디어 이해하기
기존 멀티 에이전트 시스템은 개별 에이전트의 '기술(Skill)'에 집중하며 고정된 파이프라인 안에서 움직인다. 이는 딥러닝의 모듈화된 레이어 구조와 유사하지만, 복잡하고 가변적인 실제 업무에서는 유연성이 떨어진다. 본 논문은 에이전트를 단순한 함수가 아닌 '인재(Talent)'라는 독립된 개체로 격상시키고, 이들을 관리하는 '조직 계층'을 추가하여 문제를 해결한다.
핵심 원리는 운영체제(OS) 커널이 하드웨어를 추상화하듯, 에이전트의 실행 환경을 추상화하는 것이다. 6개의 표준 인터페이스(Execution, Task, Event, Storage, Context, Lifecycle)를 통해 에이전트가 어떤 LLM이나 프레임워크를 사용하든 조직의 통제 하에 놓이게 된다. 이는 임베딩 공간에서 서로 다른 벡터들이 표준화된 차원으로 매핑되어 연산되는 것과 유사한 논리적 통합을 제공한다.
결과적으로 시스템은 정적인 워크플로우를 따르는 대신, Monte Carlo Tree Search(MCTS)와 유사한 E²R 탐색을 통해 최적의 작업 분해와 인력 배치를 실시간으로 결정한다. 실패한 작업은 상위 노드로 피드백되어 전략을 수정하게 하며, 이는 강화학습의 보상 신호가 정책을 업데이트하는 과정과 구조적으로 닮아 있어 시스템의 완결성을 보장한다.
관련 Figure

인간 평가자의 거부(Reject) 신호가 어떻게 새로운 기술 생성과 재실행을 유도하는지 단계별로 설명한다. E²R 루프가 실제 오류를 수정하며 결과물을 완성해가는 과정을 구체화한다.
게임 개발 사례에서의 반복적 작업 분해와 피드백 루프
방법론
OneManCompany(OMC)는 에이전트를 Employee 단위로 관리하며, 이는 Talent(프롬프트, 도구, 원칙)와 Container(실행 런타임)의 결합으로 구성된다. 조직은 CEO(인간), HR, COO, EA 등 고정된 C-suite 에이전트로 시작하여 필요에 따라 Talent Market에서 전문 에이전트를 채용한다.
E²R 트리 탐색은 프로젝트를 노드(Node)로 구성된 트리로 관리한다. 각 노드는 (작업 설명, 담당자, 상태, 결과, 비용) 등의 속성을 가지며, [현재 트리 상태 → 정책 π 적용 → 행동 A 선택] 과정을 거쳐 트리를 확장한다. 행동 A는 분해(Decompose), 할당(Assign), 채용(Recruit), 검토(Review), 반복(Iterate)의 5가지로 정의된다.
작업 실행은 DAG(Directed Acyclic Graph) 기반 스케줄링을 따르며, AND-Semantics를 통해 하위 작업이 모두 완료되어야 상위 작업이 완료되는 논리적 구조를 유지한다. [하위 노드 결과 → 상위 노드 검토자 평가 → Accept/Reject 결정] 순으로 품질 신호가 전파되며, Reject 시 해당 노드에서 새로운 분해 전략을 탐색하는 재시도 로직이 작동한다.
관련 Figure

Talent 수명 주기, 작업 분해 트리, 에이전트 간 협업 채널, 조직 지식 저장소 등이 하나의 대시보드에 통합된 모습을 보여준다. 이는 AI 조직이 실제 기업처럼 시각화되고 관리될 수 있음을 시사한다.
OMC 시스템의 통합 관리 인터페이스와 실행 화면
주요 결과
소프트웨어 개발 벤치마크인 PRDBench의 50개 프로젝트에서 실험한 결과, OMC는 84.67%의 성공률을 기록했다. 이는 기존 SOTA(State-of-the-Art) 모델인 Claude-4.5(69.19%)나 GPT-5.2(62.49%) 단일 에이전트 성능을 15%p 이상 상회하는 수치이다.
정성적 사례 연구에서는 콘텐츠 생성, 게임 개발, 오디오북 제작, 학술 조사 등 4가지 이종 도메인에서 시스템의 범용성을 입증했다. 특히 게임 개발 사례에서는 인간 평가자의 피드백을 받아 에이전트가 스스로 새로운 이미지 처리 기술(Skill)을 생성하고 적용하여 결함을 해결하는 자기 진화 능력을 보여주었다.
비용 측면에서는 프로젝트당 평균 약 $6.91의 비용이 발생했다. 이는 단순 질의응답보다는 높지만, 복잡한 프로젝트 수준의 작업을 자율적으로 완수한다는 점에서 실무적 타당성을 확보했다. 특히 에이전트 간의 명확한 인터페이스 덕분에 불필요한 토큰 낭비를 방지하고 실행의 안정성을 높였다.
기술 상세
OMC의 핵심은 에이전트 정체성을 직렬화 가능한 패키지로 만든 'Talent' 개념이다. 이는 특정 프레임워크(예: LangChain)의 종속성을 제거하고 순수한 인지적 구성 요소만 포함하여 이종 런타임 간의 이동성을 보장한다. 조직 계층은 OS 커널의 하위 시스템과 1:1로 대응되도록 설계되어 프로세스 관리, 메모리 격리, 보안 정책 등을 에이전트 수준에서 구현한다.
수학적으로 E²R은 상태 공간 S에서 최적의 행동 시퀀스를 찾는 탐색 문제로 정의된다. 정책 π는 [트리 T → 행동 시퀀스 σ]로 매핑되며, 이는 감독 에이전트(COO)의 휴리스틱에 의해 결정된다. 특히 'Bounded Rationality'를 구현하기 위해 리뷰 횟수 제한, 타임아웃, 비용 예산 등의 Circuit Breaker 메커니즘을 도입하여 무한 루프와 자원 고갈을 방지한다.
자기 진화 메커니즘은 'Individual-Level'과 'Organisation-Level'로 나뉜다. 개인 차원에서는 작업 후 자가 성찰을 통해 'Working Principles'를 업데이트하며, 조직 차원에서는 프로젝트 사후 검토를 통해 공유 지식인 SOP를 갱신한다. 이러한 업데이트는 모델 파라미터가 아닌 컨텍스트 내 지식(In-context Knowledge) 형태로 저장되어 즉각적이고 안전한 개선을 가능케 한다.
관련 Figure

루트 프로젝트가 여러 하위 작업으로 분해되고 각 노드에 담당 에이전트가 할당된 트리 구조를 보여준다. 의존성 엣지를 통해 작업 순서와 품질 검토 게이트가 어떻게 작동하는지 확인할 수 있다.
OMC가 생성한 계층적 작업 분해 트리 구조
한계점
현재 정량적 평가는 소프트웨어 개발(PRDBench)에 국한되어 있어 비코딩 도메인에 대한 체계적인 벤치마크 검증이 향후 과제로 남아 있다. 또한 멀티 에이전트 조정에 따른 비용 오버헤드가 발생하므로, 단순한 작업에는 단일 에이전트로 라우팅하는 적응형 디스패치 모드가 필요하다.
실무 활용
실제 기업의 운영 방식을 모방하여 복잡한 다단계 프로젝트를 자율적으로 수행할 수 있는 프레임워크로, 다양한 LLM 백엔드를 통합 관리해야 하는 기업 환경에 적합하다.
- 자율 소프트웨어 개발 및 코드 리뷰 파이프라인 구축
- 멀티모달 에이전트를 활용한 자동 콘텐츠 제작(오디오북, 영상 등)
- 대규모 문헌 조사 및 연구 아이디어 자동 생성 시스템
- 기업 내 표준 운영 절차(SOP)의 자동화 및 지속적 최적화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.