핵심 요약
기존 AI 에이전트는 사람이 설계한 고정된 기능에 의존하지만, Memento-Skills는 경험을 통해 새로운 기술을 스스로 생성하고 개선한다. 모델의 가중치를 수정하지 않고도 외부 메모리에 실행 가능한 기술을 축적함으로써, 복잡한 작업에서 지속적으로 성능을 높일 수 있는 새로운 패러다임을 제시한다.
왜 중요한가
기존 AI 에이전트는 사람이 설계한 고정된 기능에 의존하지만, Memento-Skills는 경험을 통해 새로운 기술을 스스로 생성하고 개선한다. 모델의 가중치를 수정하지 않고도 외부 메모리에 실행 가능한 기술을 축적함으로써, 복잡한 작업에서 지속적으로 성능을 높일 수 있는 새로운 패러다임을 제시한다.
핵심 기여
Skill-level Reflective Learning 메커니즘
실행 가능한 코드, 프롬프트, 사양을 포함한 '기술 폴더'를 메모리의 기본 단위로 취급하여, LLM 파라미터 업데이트 없이도 지속적인 학습과 능력 확장이 가능한 시스템을 구축했다.
Behaviour-aligned Skill Router 도입
단순한 텍스트 유사도가 아닌, 특정 기술을 실행했을 때의 성공 가능성을 예측하도록 오프라인 강화학습(Offline RL)으로 훈련된 라우터를 통해 정확한 기술 선택을 구현했다.
자가 진화형 기술 라이브러리 검증
GAIA와 HLE 벤치마크에서 각각 13.7%p, 20.8%p의 정확도 향상을 달성했으며, 특히 복잡한 학술 도메인에서 기술 전이(Skill Transfer)가 효과적으로 일어남을 입증했다.
핵심 아이디어 이해하기
기존 LLM 에이전트는 학습이 완료된 후 파라미터가 고정(Frozen)되어 새로운 환경이나 복잡한 작업에 적응하는 데 한계가 있다. Context Window에 정보를 주입하는 방식은 일시적이며, 미세 조정(Fine-tuning)은 막대한 연산 비용과 데이터가 필요하다. 이 논문은 에이전트가 수행한 작업의 성공과 실패를 분석하여 실행 가능한 '기술(Skill)' 형태로 외부 메모리에 저장하고, 이를 필요할 때마다 꺼내 쓰는 방식을 제안한다.
핵심 원리는 에이전트가 자신의 행동 결과를 성찰(Reflection)하여 스스로의 매뉴얼을 수정하는 것이다. 마치 숙련된 엔지니어가 반복되는 문제를 해결하기 위해 재사용 가능한 스크립트를 작성하고 개선하는 것과 같다. 이 과정에서 LLM은 고정된 지능 엔진 역할을 수행하고, 실제 작업 수행 능력은 외부 메모리에 축적되는 기술 라이브러리의 진화를 통해 향상된다.
결과적으로 에이전트는 시간이 지날수록 더 많은 기술을 보유하게 되며, 각 기술은 반복된 수정을 통해 더 견고해진다. 이는 모델 자체를 다시 학습시키지 않고도 에이전트의 '숙련도'를 무한히 높일 수 있는 구조적 기반을 제공한다.
방법론
Memento-Skills는 Read-Write Reflective Learning 루프를 통해 작동한다. 전체 프로세스는 Observe, Read, Act, Feedback, Write의 5단계 순환 구조를 가진다.
Read 단계에서는 Behaviour-trainable Skill Router가 현재 상태와 기술 라이브러리를 입력받아 가장 적합한 기술을 선택한다. 쿼리 q와 기술 문서 d의 임베딩 벡터를 입력으로 하여 내적 s(d, q)를 계산하고, 이를 Softmax 연산(e^s / Σe^s)을 통해 확률 분포로 변환한다. 이 결과값은 해당 기술이 현재 작업을 성공적으로 완수할 확률을 의미하며, 라우터는 이 확률이 가장 높은 기술을 호출한다.
Write 단계는 실행 결과에 따른 기술 최적화 과정이다. 작업 실패 시 LLM 기반의 Failure Attribution Selector가 실행 로그를 분석하여 오류의 원인이 된 기술을 식별한다. 이후 Skill Rewriter가 해당 기술의 코드나 프롬프트를 직접 수정하거나, 기존 기술로 해결이 불가능할 경우 새로운 기술을 생성(Skill Discovery)한다. 수정된 기술은 UnitTestGate를 통해 검증된 후 라이브러리에 반영되어 향후 유사한 작업의 성공률을 높인다.
주요 결과
GAIA 벤치마크 실험 결과, Memento-Skills는 테스트 세트에서 66.0%의 정확도를 기록했다. 이는 기술 최적화 루프가 없는 Read-Write 대조군(52.3%) 대비 13.7%p 향상된 수치이며, 반복적인 기술 개선이 실질적인 성능 향상으로 이어짐을 보여준다.
HLE(Humanity's Last Exam) 벤치마크에서는 더욱 극적인 성과를 거두었다. 대조군이 17.9%의 정확도에 그친 반면, Memento-Skills는 38.7%를 달성하여 성능을 두 배 이상 끌어올렸다. 특히 생물학이나 인문학 등 구조화된 도메인에서 학습된 기술이 새로운 문제로 전이되는 효과가 뚜렷하게 나타났다.
기술 라이브러리의 성장 분석 결과, 초기 5개의 기초 기술로 시작한 시스템은 HLE 학습 과정을 거치며 235개의 전문 기술로 확장되었다. t-SNE 시각화를 통해 확인한 결과, 생성된 기술들은 의미적으로 유사한 영역끼리 군집을 형성하며 임베딩 공간을 촘촘하게 채워나가는 수렴 양상을 보였다.
실무 활용
사용자의 피드백을 통해 스스로 도구 사용법을 익히고 워크플로우를 최적화해야 하는 자율형 에이전트 시스템 구축에 즉시 활용 가능하다.
- 복잡한 소프트웨어 라이브러리를 스스로 학습하고 코드를 작성하는 자율 코딩 에이전트
- 반복되는 고객 문의 패턴을 분석하여 대응 시나리오를 스스로 업데이트하는 고객 지원 봇
- 다양한 데이터 분석 도구의 사용법을 익혀 복합적인 리포트를 생성하는 데이터 사이언스 에이전트
기술 상세
본 연구는 Stateful Reflective Decision Process (SRDP)를 이론적 배경으로 한다. 상태 공간을 현재 작업 상태 st와 기술 메모리 Mt의 쌍인 xt = (st, Mt)로 정의함으로써, 메모리 업데이트가 포함된 시스템에서도 마르코프 성질(Markov property)을 유지할 수 있도록 설계했다.
라우터 학습에는 InfoNCE Loss를 활용한 오프라인 강화학습 기법이 적용되었다. [기술 임베딩과 쿼리 임베딩의 유사도 계산 -> 배치 내 정답 쌍의 확률 극대화 -> 손실 함수 계산 -> 가중치 업데이트] 과정을 통해, 단순한 텍스트 유사도가 아닌 실제 실행 성공(Execution Success)과 정렬된 라우팅 정책을 학습한다.
기술 진화 메커니즘은 'Diminishing Returns' 곡선을 따른다. 초기에는 라이브러리가 희소하여 새로운 기술 추가가 큰 성능 향상을 가져오지만, 라이브러리가 조밀해질수록 기존 기술의 미세한 수정이 주를 이루며 성능이 최적점으로 수렴한다. 이는 이론적으로 증명된 성능 갭(Performance Gap) 상한선이 메모리 커버리지 반경 rM이 줄어듦에 따라 타이트해지는 현상과 일치한다.
한계점
GAIA와 같이 작업 간의 공통 분모가 극히 적은 환경에서는 학습된 기술의 재사용성이 떨어지는 한계가 있다. 또한, 에이전트가 코드를 직접 수정하고 실행하므로 안전한 운영을 위한 강력한 샌드박스(Sandbox) 환경이 전제되어야 한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료