핵심 요약
대형 언어 모델 기반 에이전트는 단일 작업에서는 우수하나, 수십 개의 업무가 얽힌 실제 기업 환경에서는 성능이 급격히 저하되는 한계가 있다. Microsoft 연구팀은 이러한 문제를 다중 호라이즌 작업 환경(MHTE)으로 정의하고, 이를 해결하기 위한 CORPGEN 프레임워크를 제안했다. CORPGEN은 계층적 계획, 서브 에이전트 격리, 계층형 메모리, 적응형 요약 기술을 통해 기존 에이전트 대비 최대 3.5배의 성능 향상을 달성했다. 특히 성공적인 작업 경로를 학습하고 재사용하는 경험적 학습 기능이 성능 개선의 핵심 요소임이 확인되었다.
배경
AI 에이전트 아키텍처, LLM 컨텍스트 윈도우 개념, DAG(유향 비순환 그래프) 구조
대상 독자
기업용 AI 에이전트 시스템 설계자 및 MLOps 엔지니어
의미 / 영향
이 연구는 단순 챗봇을 넘어 실제 업무를 수행하는 디지털 직원 구현을 위한 구체적인 아키텍처 청사진을 제시한다. 특히 MHTE라는 새로운 문제 정의를 통해 향후 에이전트 벤치마크의 방향성을 실제 비즈니스 복잡도에 맞게 재편할 것으로 예상된다.
섹션별 상세
실제 기업 환경은 수십 개의 작업이 복잡한 의존성을 가지고 동시에 진행되는 MHTE(Multi-Horizon Task Environments) 특성을 띠지만 기존 벤치마크는 단일 작업에 치중되어 있다. 실험 결과 작업 부하가 25%에서 100%로 증가할 때 기존 컴퓨터 사용 에이전트(CUA)의 완료율은 16.7%에서 8.7%로 급락했다. 이는 컨텍스트 포화, 메모리 간섭, 의존성 그래프의 복잡성, 재우선순위 지정 오버헤드라는 네 가지 근본적인 실패 모드에 기인한다.
에이전트 실패의 주요 원인 중 하나인 컨텍스트 포화는 작업 수에 따라 필요한 토큰량이 선형적으로 증가하여 윈도우 용량을 초과하게 만든다. 또한 여러 작업이 하나의 컨텍스트를 공유할 때 발생하는 메모리 간섭은 작업 간 추론 정보를 오염시킨다. 기업 업무가 선형 구조가 아닌 유향 비순환 그래프(DAG) 형태를 띠는 점과 매 주기마다 모든 활성 작업의 우선순위를 재평가해야 하는 오버헤드도 성능 저하의 핵심 요인이다.
CORPGEN은 MOMA(Multi-Objective Multi-Horizon Agent) 기능을 구현하기 위해 네 가지 기술적 메커니즘을 도입했다. 먼저 전략적 목표(월간), 전술적 계획(일간), 운영적 행동(주기별)으로 구분된 계층적 계획을 통해 장기적인 일관성을 유지한다. 또한 GUI 자동화나 조사 업무를 독립된 스코프에서 처리하는 서브 에이전트 격리 구조를 채택하여 작업 간 메모리 오염을 원천적으로 방지한다.
효율적인 상태 관리를 위해 워킹 메모리, 구조화된 장기 메모리(LTM), 시맨틱 메모리로 구성된 3단계 계층형 메모리 아키텍처를 사용한다. 컨텍스트 길이가 4,000 토큰을 초과할 경우 도구 호출과 상태 변화 등 핵심 내용은 그대로 보존하고 중간 추론 과정은 구조화된 요약으로 압축하는 적응형 요약 기술을 적용한다. 시맨틱 메모리는 Mem0를 활용하여 과거 컨텍스트에 대한 유사도 기반 검색을 지원한다.
CORPGEN은 다양한 백엔드에서 기존 베이스라인 대비 최대 3.5배의 성능 향상을 보였으며 100% 부하 상황에서 UFO2 모델의 완료율을 4.3%에서 15.2%로 끌어올렸다. 절제 연구 결과 성공적인 작업 실행 경로를 추출하여 FAISS 데이터베이스에 인덱싱하고 이를 퓨샷 예제로 활용하는 경험적 학습이 가장 큰 기여를 했다. 이는 검증된 패턴을 통해 에이전트의 행동 선택 편향을 최적화하는 효과를 제공한다.
연구팀은 에이전트 성능 평가 시 생성된 파일과 결과물을 직접 확인하는 아티팩트 기반 판단이 인간의 라벨링과 90% 일치함을 발견했다. 반면 스크린샷과 실행 로그에 의존하는 추적 기반 LLM 판단은 일치율이 40%에 불과했다. 이는 현재의 벤치마크들이 에이전트가 실제로 생산한 결과물보다 시각적 흔적에 의존함으로써 실제 성능을 체계적으로 과소평가하고 있을 가능성을 시사한다.
실무 Takeaway
- 실제 기업 환경(MHTE)에서 AI 에이전트 도입 시 작업 부하 증가에 따른 성능 급락 현상을 방지하기 위한 아키텍처 설계가 필수적이다.
- 컨텍스트 윈도우 관리와 메모리 오염 방지를 위해 서브 에이전트 격리 및 계층형 메모리 구조를 도입해야 한다.
- 성공적인 작업 경로를 데이터베이스화하여 퓨샷 예제로 재사용하는 경험적 학습 기법이 에이전트의 실질적 업무 완료율 향상에 가장 효과적이다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료