핵심 요약
오픈소스 LLM은 상용 모델에 비해 추론 능력이 부족하여 복잡한 도구 사용 시 오류가 누적되는 경향이 있다. FAMA는 에이전트의 실패 궤적을 분석해 필요한 최소한의 전문 에이전트만 동적으로 활성화함으로써, 제한된 자원 내에서 에이전트의 신뢰성과 효율성을 동시에 확보한다.
왜 중요한가
오픈소스 LLM은 상용 모델에 비해 추론 능력이 부족하여 복잡한 도구 사용 시 오류가 누적되는 경향이 있다. FAMA는 에이전트의 실패 궤적을 분석해 필요한 최소한의 전문 에이전트만 동적으로 활성화함으로써, 제한된 자원 내에서 에이전트의 신뢰성과 효율성을 동시에 확보한다.
핵심 기여
오류 인지형 메타 에이전트 아키텍처 FAMA 제안
에이전트의 행동을 직접 수행하는 대신, 실패 패턴을 진단하고 최적의 보조 에이전트 조합을 구성하여 도구 사용 에이전트의 컨텍스트를 정교하게 조정하는 2단계 프레임워크를 구축했다.
동적 에이전트 오케스트레이션 메커니즘
모든 보조 에이전트를 동시에 사용하는 대신, 실패 원인에 따라 필요한 에이전트(Planner, Verifier, Memory 등)만 선택적으로 활성화하여 토큰 사용량을 최적화하고 컨텍스트 오버플로우를 방지한다.
오픈소스 LLM 성능의 대폭적인 개선 입증
τ-bench, τ-trait, ACEBench 등 주요 벤치마크에서 Qwen 시리즈 모델을 대상으로 실험한 결과, 표준 베이스라인 대비 최대 27%의 성능 향상을 달성했다.
핵심 아이디어 이해하기
기존의 멀티 에이전트 시스템은 모든 보조 에이전트를 고정적으로 연결하여 사용한다. 이는 오픈소스 LLM처럼 Context Window가 작고 추론 능력이 제한된 모델에게 불필요한 토큰 정보를 과도하게 주입하여 오히려 성능을 저하시키는 결과를 초래한다. 특히 Attention 연산 과정에서 핵심 정보가 희석되거나 토큰 예산이 조기에 소진되는 문제가 발생한다.
FAMA는 이러한 한계를 해결하기 위해 '실패로부터 배우는 메타 인지' 개념을 도입한다. 먼저 베이스라인 에이전트가 수행한 작업의 실패 궤적(Trajectory)을 분석하여 도메인 정책 위반, 잘못된 정보 추출 등 구체적인 오류 유형을 식별한다. 이후 Orchestrator가 해당 오류를 해결하는 데 특화된 최소한의 에이전트(예: 규칙 위반 시 Domain Extractor)만을 호출한다.
이 방식은 모델이 의사결정을 내리기 직전에 가장 필요한 정보만을 정제하여 컨텍스트에 주입한다. 결과적으로 모델은 방대한 전체 기록 대신 정제된 힌트와 검증된 데이터에만 집중할 수 있게 되어, 장기적인 대화 흐름 속에서도 의사결정의 일관성을 유지하고 오류 누적을 효과적으로 차단한다.
관련 Figure

Stage 1의 실패 작업 추출부터 Stage 2의 오류 분석 및 에이전트 선정, Stage 3의 최종 실행까지의 흐름을 상세히 나타낸다. 특히 성공률이 17.8%에서 37.9%로 개선되는 구체적인 사례를 시각화했다.
FAMA 프레임워크의 3단계 운영 프로세스 상세도
방법론
FAMA 프레임워크는 분석(Analysis)과 완화(Mitigation)의 두 단계로 구성된다. 분석 단계에서는 베이스라인 에이전트의 실행 로그를 입력으로 받아 독립적인 오류 분석 에이전트들이 도메인 정책 위반(Domain Policy Violation), 복잡한 출력에서의 오추출(Wrong Retrieval), 문맥 오해(Contextual Misinterpretation), 불완전한 수행(Incomplete Fulfillment) 여부를 판별한다.
완화 단계에서는 Orchestrator가 분석 결과를 종합하여 근본 원인을 파악한다. [식별된 오류 유형 → Mitigation Agent 입력 → 최적 에이전트 리스트 출력] 과정을 거쳐 Planner, Verifier, Tool Suggestion Agent 중 필요한 모듈만 선택한다. 이후 베이스라인 에이전트를 재실행할 때 선택된 보조 에이전트들이 생성한 정제된 컨텍스트를 주입하여 최종 응답의 정확도를 높인다.
메모리 관리 측면에서는 도메인 특성에 따라 최적의 메모리 크기 k를 동적으로 설정한다. [전체 대화 이력 → k개 선택 → 요약/추출 → 주입된 컨텍스트] 순으로 연산이 이루어지며, 이는 긴 대화에서 발생하기 쉬운 정보 소실 문제를 방지하고 토큰 효율성을 극대화한다.
관련 Figure

정적 방식이 모든 모듈을 고정적으로 사용하는 반면, FAMA는 실패 궤적을 분석하여 필요한 최적의 에이전트만 선택적으로 활성화함을 보여준다. 이를 통해 토큰 예산 제약을 극복하고 일반화 성능을 높이는 원리를 설명한다.
정적 에이전트 프레임워크와 FAMA의 동적 에이전트 프레임워크 비교 다이어그램
주요 결과
τ-bench 실험 결과, Qwen3-4B 모델에서 FAMA는 Airline 도메인 37.6%, Retail 도메인 34.6%의 Pass@1 성적을 기록하며 ReAct 및 IRMA 베이스라인을 크게 상회했다. 특히 모든 에이전트를 사용하는 IRMA 방식이 성능 저하를 보이는 구간에서도 FAMA는 선택적 활성화를 통해 안정적인 성능 우위를 유지했다.
효율성 분석에서 FAMA는 IRMA 대비 약 30% 낮은 토큰 오버헤드를 기록했다. Qwen3-32B 모델 기준 IRMA가 50-58%의 추가 토큰을 소모할 때 FAMA는 29.7% 수준으로 억제하면서도 응답 지연 시간(Latency)을 단축시켰다. 이는 불필요한 에이전트 호출을 줄인 결과로 분석된다.
ACEBench 및 τ-trait 벤치마크에서도 일관된 경향이 확인됐다. ACEBench에서 Qwen2.5-72B 모델에 FAMA를 적용했을 때 End-to-End 정확도가 50.0%로 나타나 베이스라인(23.3%) 대비 두 배 이상의 성능 향상을 보였다. 이는 복잡한 도구 호출 시퀀스에서도 FAMA의 검증 및 계획 기능이 유효함을 입증한다.
관련 Figure

Qwen2.5-72B-Instruct 모델이 GPT-4o에 근접하거나 능가하는 성능(47.6%)을 보임을 입증하여, 오픈소스 모델이 에이전트 환경에서 충분히 경쟁력이 있음을 보여준다.
다양한 오픈소스 LLM의 사용자 에이전트 성능 비교 차트

Mitigation Agent가 추천한 최적의 에이전트 조합(FAMA)이 임의의 다른 조합들보다 모든 k값에서 일관되게 높은 Pass^k 성능을 기록함을 보여준다.
FAMA와 다른 에이전트 조합(Exp 1, 2, 3) 간의 성능 비교 그래프
기술 상세
FAMA 아키텍처는 Meta-Agentic 계층을 두어 하위 도구 사용 에이전트의 상태를 모니터링한다. 핵심은 오류 카테고리 E에 대한 독립적인 분석 에이전트들이다. 이들은 각기 다른 프롬프트 전략을 사용하여 궤적 내의 특정 실패 지점을 포착하며, Orchestrator는 이들의 텍스트 추론 결과를 결합하여 최종적인 완화 전략을 수립한다.
구현 측면에서 FAMA는 고정된 에이전트 풀(Pool)을 전제로 한다. 여기에는 Domain Constraints Extractor(DCE), Tool Suggestion Agent(TSA), Tool Output Reformulator(TOR), Planner, Verifier 등이 포함된다. 각 에이전트는 특정 오류 유형을 해결하도록 설계되었으며, FAMA는 런타임에 이들을 그래프 형태로 동적 연결한다.
이론적으로 FAMA는 POMDP(Partially Observable Markov Decision Process) 환경에서 에이전트의 관측 범위를 최적화하는 역할을 수행한다. 불필요한 관측값(Context)을 제거하고 결정적인 상태 정보만을 유지함으로써, 모델의 Attention 메커니즘이 정답 토큰 생성에 필요한 핵심 가중치에 집중할 수 있도록 유도한다.
관련 Figure

Retail 및 Airline 도메인에서 모델들이 겪는 주된 실패 원인을 분석한 결과이다. 도메인 정책 위반(DCV)과 문맥 오해(CM)가 가장 큰 비중을 차지함을 시각적으로 확인할 수 있다.
모델별 주요 오류 카테고리(DCV, WRCO, IFU, CM) 분포 파이 차트
한계점
FAMA는 사전에 정의된 에이전트 풀의 성능에 의존하므로, 기존 에이전트들이 포착하지 못하는 새로운 유형의 실패 모드에는 대응하기 어렵다. 또한 에이전트를 자동으로 생성하거나 합성하는 기능은 아직 포함되어 있지 않으며, 현재는 구조화된 대화 환경에 최적화되어 있어 멀티모달이나 비정형 환경으로의 확장이 과제로 남아 있다.
실무 활용
제한된 컴퓨팅 자원에서 오픈소스 LLM을 활용해 고객 지원 챗봇이나 자동화 에이전트를 구축하려는 기업에 적합하다. 모든 기능을 한 모델에 담기보다 오류 유형별로 작은 모델들을 조합해 전체 시스템의 신뢰도를 높일 수 있다.
- 오픈소스 LLM 기반의 기업용 고객 상담 자동화 시스템
- 복잡한 API 호출이 필요한 사내 워크플로우 자동화 에이전트
- 제한된 토큰 예산 내에서 운영되는 멀티턴 대화형 AI 서비스
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.