핵심 요약
LLM 멀티 에이전트 시스템에서 단순히 에이전트 수를 늘리는 것이 항상 성능 향상으로 이어지지 않는다는 비단조적 확장 특성을 밝혀냈습니다. 효율적인 메모리 설계를 통해 과거의 경험을 압축된 절차적 지식으로 변환함으로써, 더 적은 비용으로도 대규모 팀보다 뛰어난 장기 성능을 달성할 수 있음을 입증했습니다.
왜 중요한가
LLM 멀티 에이전트 시스템에서 단순히 에이전트 수를 늘리는 것이 항상 성능 향상으로 이어지지 않는다는 비단조적 확장 특성을 밝혀냈습니다. 효율적인 메모리 설계를 통해 과거의 경험을 압축된 절차적 지식으로 변환함으로써, 더 적은 비용으로도 대규모 팀보다 뛰어난 장기 성능을 달성할 수 있음을 입증했습니다.
핵심 기여
LLMA-Mem 프레임워크 제안
에피소드, 절차, 상호 교류 메모리로 구성된 3단계 메모리 구조를 통해 멀티 에이전트 시스템의 평생 학습 능력을 강화하는 통합 프레임워크를 구축했다.
비단조적 확장 풍경 발견
에이전트 팀 규모가 커질수록 조정 오버헤드와 정보 파편화가 발생하여, 특정 지점 이후에는 오히려 성능이 하락하거나 작은 팀이 큰 팀을 앞지르는 현상을 확인했다.
토큰 비용의 획기적 절감
원시 궤적을 그대로 저장하는 대신 압축된 절차적 지식으로 변환하여 기존 메모리 베이스라인 대비 토큰 사용량을 최소 9.4%에서 최대 71.7%까지 절감했다.
메모리 토폴로지 영향 분석
로컬, 공유, 하이브리드 메모리 구조가 에이전트의 역할 전문화와 지식 공유 효율성에 미치는 영향을 체계적으로 비교 분석했다.
핵심 아이디어 이해하기
기존 LLM 에이전트 시스템은 과거의 경험을 단순한 텍스트 로그 형태로 저장하고 이를 검색(RAG)하여 다시 프롬프트에 주입하는 방식에 의존했다. 하지만 에이전트가 여러 명인 멀티 에이전트 환경에서는 각 에이전트가 생성하는 데이터 양이 방대해지면서 컨텍스트 윈도우가 금방 가득 차고, 불필요한 정보가 섞여 추론 효율이 급격히 떨어진다. 이는 마치 모든 회의록을 통째로 다시 읽으며 다음 업무를 준비하는 것과 같아 시간과 비용 면에서 매우 비효율적이다.
LLMA-Mem은 이 문제를 해결하기 위해 인간의 기억 체계를 모사하여 정보를 계층화한다. 구체적인 사건을 저장하는 '에피소드 메모리'에서 반복되는 성공 패턴을 추출하여 '절차적 메모리'로 변환한다. 이는 개별 경험(Raw data)을 일반화된 매뉴얼(Procedural knowledge)로 압축하는 과정이다. 또한 '누가 무엇을 잘하는지'를 기록하는 상호 교류 메모리를 통해 팀 내 협업 효율을 극대화한다.
결과적으로 시스템은 시간이 지날수록 더 똑똑해지며, 방대한 과거 데이터를 다 읽을 필요 없이 정제된 지식만 참조하게 된다. 실험 결과, 잘 설계된 메모리를 가진 3인 팀이 메모리가 부족한 5인 또는 7인 팀보다 더 복잡한 코딩 및 연구 과제를 효율적으로 수행할 수 있음이 증명되었다. 이는 에이전트의 '수(Space)'를 늘리는 것보다 '경험의 축적(Time)'을 어떻게 관리하느냐가 시스템 확장의 핵심임을 시사한다.
방법론
LLMA-Mem은 세 가지 핵심 메모리 모듈로 구성된다. 에피소드 메모리(Episodic Memory)는 개별 작업의 실행 궤적, 결과, 교훈을 저장하는 원시 저장소 역할을 한다. 절차적 메모리(Procedural Memory)는 에피소드 메모리에서 반복적으로 성공한 패턴을 클러스터링하여 추출한 일반화된 전략을 담는다. 상호 교류 메모리(Transactive Memory)는 각 에이전트의 전문 분야, 숙련도, 협업 이력을 프로파일링하여 최적의 팀 구성과 작업 할당을 지원한다.
메모리 생명주기는 검색, 업데이트, 통합의 3단계로 운영된다. 검색 단계에서는 현재 작업 쿼리 q에 대해 절차적 메모리를 우선 조회하고, 부족할 경우 에피소드 메모리를 참조하는 계층적 전략을 사용한다. 이때 점수 계산은 rel(m,q) + imp(m) 수식을 따른다. [의미 벡터 간의 코사인 유사도(rel)와 해당 지식의 성공률/중요도(imp)를 더하여] → [최종 점수를 산출하고] → [가장 높은 점수의 상위 k개 항목을 추출하여] → [모델의 컨텍스트로 제공한다].
통합(Consolidation) 단계는 매 N개의 작업마다 수행된다. 시스템은 에피소드 메모리에 쌓인 교훈들을 의미론적으로 유사한 것끼리 묶고, 성공 사례가 일정 기준 이상인 클러스터에서 일반화된 전략을 추출한다. [성공한 에피소드들의 공통 로직을 입력으로] → [LLM을 통해 추상화된 템플릿을 생성하여] → [새로운 절차적 지식으로 저장하고] → [중복되거나 하위 호환되는 기존 지식을 제거한다]. 이 과정을 통해 메모리는 비대해지지 않고 지속적으로 정제된다.
주요 결과
MultiAgentBench의 코딩, 연구, 데이터베이스 환경에서 실험한 결과, LLMA-Mem은 모든 설정에서 노메모리(No-memory) 베이스라인보다 높은 평균 성능(AAS)을 기록했다. 특히 DeepSeek-V3.2 모델을 사용한 연구 환경에서는 AAS가 5.92점 향상되었으며, Qwen3-32B-Instruct 모델의 데이터베이스 환경에서는 3.19점 향상되었다. 이는 시간이 지날수록 성능이 정체되거나 하락하는 기존 메모리 방식(MARBLE, A-Mem)과 달리, LLMA-Mem은 지식 통합을 통해 안정적인 성능 우위를 유지함을 보여준다.
비용 효율성 측면에서 LLMA-Mem은 압도적인 결과를 보였다. Claude-Sonnet-4.5 기반 연구 과제에서 기존 방식 대비 토큰 사용량을 60.4% 절감했으며, Qwen3-next-80B 코딩 과제에서는 53.2%를 절감했다. 이는 긴 실행 궤적을 프롬프트에 그대로 넣는 대신, 압축된 절차적 지식만 참조함으로써 입력 토큰 오버헤드를 획기적으로 줄였기 때문이다.
팀 규모 확장에 따른 분석에서는 비단조적(Non-monotonic) 특성이 관찰되었다. 예를 들어 Qwen3-32B-Instruct 모델의 경우, 3인 팀의 성능이 5인 팀보다 높게 나타나는 성능 역전 현상이 발생했다. 이는 에이전트 수가 늘어날수록 발생하는 통신 오버헤드와 정보 파편화가 메모리를 통한 학습 이득을 상쇄할 수 있음을 의미하며, 적절한 메모리 설계가 대규모 팀 구성보다 더 경제적인 대안이 될 수 있음을 입증했다.
기술 상세
LLMA-Mem의 아키텍처는 에피소드(Episodic), 절차적(Procedural), 상호 교류(Transactive) 메모리의 삼중 구조를 채택하여 지식의 휘발성을 방지하고 재사용성을 극대화한다. 특히 절차적 메모리는 원시 로그를 직접 참조하는 기존의 RAG 기반 메모리 시스템의 한계인 '컨텍스트 팽창' 문제를 해결하기 위해 도입되었다. 이는 지식 증류(Distillation)와 유사한 원리로, 다수의 성공 사례에서 공통된 '방법론'만 추출하여 저장한다.
메모리 토폴로지 연구에서는 로컬(Local) 토폴로지가 멀티 에이전트 환경에서 가장 효과적임을 발견했다. 각 에이전트가 자신의 역할에 특화된 메모리를 유지할 때 지식의 간섭이 적고 검색 정확도가 높았다. 반면 공유(Shared) 메모리는 지식 공유에는 유리하나 검색 노이즈와 관리 오버헤드가 증가하는 경향을 보였다. 하이브리드(Hybrid) 방식은 에피소드는 로컬에, 절차와 통계는 공유하는 절충안을 제시한다.
수학적으로 메모리 검색은 임베딩 공간에서의 코사인 유사도와 지식의 신뢰도(성공률)를 결합한 가중치 합산 방식을 사용한다. 절차적 지식 p_j의 신뢰도 rho_j는 s_j / (s_j + f_j)로 계산되며, 여기서 s_j와 f_j는 각각 해당 절차의 성공 및 실패 횟수이다. 이러한 확률적 접근은 시스템이 검증된 지식을 우선적으로 활용하도록 유도하며, 새로운 시도와 기존 지식 활용 사이의 균형을 맞추는 역할을 한다.
한계점
실험에 사용된 에이전트 규모가 최대 7명으로 제한되어 있어, 수십 명 이상의 대규모 콜렉티브 환경에서 발생할 수 있는 통신 병목이나 메모리 간섭 현상을 완전히 파악하기 어렵다. 또한 코딩, 연구, DB라는 세 가지 협업 환경에 국한되어 있어 웹 검색이나 로봇 제어와 같은 다른 도메인으로의 일반화 가능성은 추가 검증이 필요하다. 마지막으로 메모리의 중복성이나 노후화된 지식의 삭제(Staleness) 메커니즘에 대한 정밀한 평가는 포함되지 않았다.
실무 활용
복잡하고 긴 단계가 필요한 소프트웨어 개발, 학술 연구 자동화, 데이터베이스 관리 등 장기적인 작업 흐름이 반복되는 멀티 에이전트 시스템 구축에 즉시 적용 가능하다.
- 자율 코딩 에이전트 팀의 프로젝트 수행 이력 기반 코딩 컨벤션 및 워크플로 자동 최적화
- 연구 에이전트의 논문 탐색 및 요약 과정에서 반복되는 검색 전략의 절차적 지식화
- DB 관리 에이전트의 쿼리 최적화 및 장애 대응 패턴 축적을 통한 운영 효율화
- 제한된 토큰 예산 내에서 장기 운영이 필요한 엔터프라이즈급 AI 에이전트 서비스
코드 공개 여부: 공개
코드 저장소 보기키워드
추가 이미지 분석

상단 그래프는 팀 규모와 작업 순서에 따른 성능 변화를 3D 평면으로 보여주며, 메모리가 적용될 때 성능이 비단조적으로 확장됨을 시사한다. 하단 바 차트는 LLMA-Mem이 모든 모델에서 기존 방식 대비 토큰 사용량을 9.4%에서 71.7%까지 획기적으로 줄였음을 보여준다.
LLMA-Mem의 확장 공간 분석 및 모델별 토큰 사용량 비교 차트

에피소드, 절차적, 상호 교류 메모리의 데이터 구조와 이들이 로컬, 공유, 하이브리드 형태로 어떻게 배치되는지 시각화한다. 각 메모리 모듈이 담당하는 역할(경험 기록, 전략 추출, 팀 조정)을 명확히 구분하여 보여준다.
LLMA-Mem의 3단계 메모리 아키텍처 및 토폴로지 구성도

작업 수행 중 메모리를 검색하고 결과를 업데이트하며, 주기적으로 에피소드를 절차적 지식으로 통합하는 과정을 상세히 설명한다. 특히 통합 단계에서 유사 레슨 클러스터링과 전략 추출 과정이 핵심 메커니즘임을 나타낸다.
메모리 생명주기: 검색, 업데이트, 통합 프로세스 다이어그램
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.