IBM과 UC 버클리, IT-Bench와 MAST를 활용한 엔터프라이즈 에이전트 실패 원인 진단

핵심 요약

엔터프라이즈 IT 자동화 환경에서 LLM 에이전트의 성능을 단순히 성공률로만 평가하는 방식은 한계가 있다. IBM과 UC 버클리는 MAST(Multi-Agent System Failure Taxonomy)를 IT-Bench에 적용하여 에이전트 실패의 구체적 원인을 14가지 패턴으로 체계화했다. 분석 결과 고성능 모델은 특정 검증 단계의 고립된 실패가 주원인인 반면, 오픈 소스 모델은 초기 오류가 누적되어 전체 시스템이 붕괴하는 양상을 띤다. 이를 바탕으로 외부 검증 게이트 도입이나 상태 머신 기반 제어와 같은 실질적인 엔지니어링 해결책이 도출됐다.

배경

LLM 에이전트 아키텍처, SRE(Site Reliability Engineering) 기본 개념, Kubernetes 운영 지식

대상 독자

엔터프라이즈 SRE 및 보안 자동화 에이전트를 설계하는 AI 엔지니어

의미 / 영향

에이전트 개발을 단순 성능 최적화에서 정밀 진단 기반의 엔지니어링으로 전환하는 계기가 된다. 모델별 실패 패턴을 데이터화함으로써 실무 환경에서 필요한 구체적인 보완 장치 설계 로드맵을 제공한다.

섹션별 상세

MAST 프레임워크는 실행 로그를 14가지 실패 모드로 구조화한다. 시스템 설계, 에이전트 간 정렬, 작업 검증의 세 가지 카테고리를 기준으로 무엇이 잘못되었는지 정밀 진단이 가능하다. 기존 벤치마크가 결과값만 제공하던 한계를 극복하고 엔지니어링 관점의 데이터를 제공한다.

모델 성능에 따른 실패 양상의 차이가 뚜렷하게 관찰된다. Gemini-3-Flash는 트레이스당 평균 2.6개의 고립된 실패를 겪으며 비교적 예측 가능한 범위 내에서 작동한다. 반면 GPT-OSS-120B는 5.3개의 실패 모드가 중첩되며 초기 오류가 전체 시스템을 붕괴시키는 연쇄적 양상을 띤다.

모든 실패가 최종 결과에 치명적인 것은 아니다. 단계 반복이나 작업 명세 미준수는 성공한 사례에서도 빈번하게 나타나는 비치명적 요소로 분류된다. 반면 잘못된 검증이나 종료 조건 미인지는 작업 실패와 직결되는 핵심적인 원인임이 확인됐다.

모델별 특성에 맞춘 시스템적 보완이 요구된다. Gemini는 외부 도구를 통한 강제 검증 게이트가 효과적이며, Kimi-K2는 결정론적 상태 머신을 통한 종료 제어가 필수적이다. GPT-OSS-120B의 경우 엄격한 문맥 관리와 조기 오류 탐지 로직이 성능 개선의 관건이다.