핵심 요약
기존 LLM 에이전트는 배포 후 기술(Skill)이 고정되어 유사한 실패를 반복하는 한계가 있었다. SkillClaw는 여러 사용자의 상호작용 데이터를 통합 분석하여 에이전트의 기술 라이브러리를 자동으로 업데이트하고 공유함으로써 시스템 전체의 성능을 지속적으로 향상시킨다.
왜 중요한가
기존 LLM 에이전트는 배포 후 기술(Skill)이 고정되어 유사한 실패를 반복하는 한계가 있었다. SkillClaw는 여러 사용자의 상호작용 데이터를 통합 분석하여 에이전트의 기술 라이브러리를 자동으로 업데이트하고 공유함으로써 시스템 전체의 성능을 지속적으로 향상시킨다.
핵심 기여
집단적 기술 진화 아키텍처
개별 사용자의 세션에서 발생하는 성공과 실패 궤적을 중앙 저장소로 수집하고, 이를 분석하여 모든 사용자에게 업데이트된 기술을 동기화하는 폐쇄 루프 시스템을 구축했다.
자율적 에이전틱 에볼버
사전에 정의된 규칙 대신 LLM 기반의 에이전트가 직접 상호작용 증거를 추론하고 기술 정의를 수정하거나 새로운 기술을 생성하는 Agentic Evolution 패러다임을 도입했다.
실제 환경 기반의 검증 메커니즘
업데이트된 기술을 즉시 배포하지 않고, 야간에 실제 사용자 환경과 유사한 조건에서 기존 기술과 성능을 비교 검증하여 성능 향상이 확인된 경우에만 반영하는 단조 증가적 배포 전략을 사용한다.
핵심 아이디어 이해하기
기존의 LLM 에이전트는 특정 작업을 수행하기 위해 미리 정의된 '기술(Skill)' 세트를 사용한다. 하지만 실제 사용 환경에서 발생하는 다양한 예외 상황이나 도구 호출 오류 등은 개별 세션 내에서만 해결되고 사라지며, 시스템 전체의 지식으로 축적되지 못하는 문제가 있었다. 이는 마치 숙련되지 않은 작업자가 매번 같은 실수를 반복하며 매번 새로운 해결책을 찾아야 하는 것과 같다.
SkillClaw는 이러한 개별적인 경험을 '집단 지성'으로 전환한다. 여러 사용자가 동일한 기술을 사용하면서 겪는 다양한 맥락의 데이터를 모으면, 해당 기술이 어떤 조건에서 성공하고 어떤 조건에서 실패하는지에 대한 명확한 경계선(Behavioral Boundary)이 드러난다. 이를 통해 특정 사용자의 특이한 케이스와 일반화 가능한 개선 사항을 구분할 수 있게 된다.
결과적으로 시스템은 사용자가 늘어날수록 더 많은 학습 데이터를 얻게 되며, 에이전트가 스스로 자신의 기술 명세서를 수정하거나 부족한 기능을 보완하는 새로운 기술을 만들어낸다. 이는 에이전트가 고정된 도구 사용법에 머물지 않고, 실제 사용자의 피드백과 환경의 반응을 학습하여 시간이 지날수록 더 똑똑해지는 진화형 시스템으로 거듭나게 함을 의미한다.
방법론
SkillClaw 프레임워크는 상호작용, 수집, 진화, 검증, 동기화의 5단계 순환 구조로 작동한다. 먼저 독립적인 에이전트들이 사용자 환경에서 작업을 수행하며 '프롬프트 → 행동 → 피드백 → 응답'으로 이어지는 인과 관계 체인(Causal Chain)을 포함한 세션 궤적을 생성한다. 이 데이터는 중앙 엔진으로 전송되어 참조된 기술별로 그룹화된다.
중앙의 Agentic Evolver는 그룹화된 증거 데이터를 분석한다. [성공/실패 궤적 입력 → 근본 원인 진단 및 패턴 식별 → 기술 수정(Refine), 생성(Create), 건너뛰기(Skip) 중 선택 → 기술 정의 업데이트] 과정을 거친다. 이때 성공한 세션은 보존해야 할 불변량(Invariants)으로, 실패한 세션은 수정해야 할 목표(Targets)로 정의하여 기술의 안정성을 유지한다.
업데이트된 기술 후보는 검증 단계에서 엄격한 테스트를 거친다. [기존 기술 s와 후보 기술 s' 입력 → 동일한 환경에서 실행 → 성공률 및 안정성 수치 비교 → s'의 성능이 우수할 경우 Accept] 순으로 판단한다. 승인된 기술은 공유 저장소에 병합되고 모든 에이전트에게 동기화되어 다음 날의 상호작용에 즉시 활용된다.
주요 결과
WildClawBench를 통한 실험 결과, Qwen3-Max 모델 기반의 에이전트 시스템에서 모든 카테고리에 걸쳐 유의미한 성능 향상이 확인됐다. Social Interaction 분야에서는 2일 차에 성능이 54.01%에서 60.34%로 급격히 상승한 후 안정화되었는데, 이는 주요 워크플로의 병목 현상이 초기에 해결되었음을 보여준다.
Search & Retrieval 분야에서는 22.73%에서 시작하여 6일 차에 34.55%까지 단계적으로 상승했다. 이는 입력 검증, 파일 접근성 해결, 제약 조건 인식 계획 수립 등 복합적인 기술 업데이트가 누적된 결과이다. Creative Synthesis 분야 역시 11.57%에서 21.80%로 약 88.41%의 상대적 성능 향상을 기록했다.
Safety & Alignment 분야에서는 실행 신뢰성 중심의 업데이트를 통해 24.00%에서 32.00%로 성능이 개선됐다. 전반적으로 시스템은 초기에 치명적인 오류를 해결하고, 이후 점진적으로 세부적인 실행 로직을 강화하는 진화 패턴을 보였으며, 이는 단일 세션 최적화보다 집단적 진화가 실질적인 시스템 견고함을 제공함을 입증한다.
기술 상세
SkillClaw의 핵심 아키텍처는 분산된 에이전트와 중앙 집중식 진화 엔진의 결합이다. 에이전트는 OpenClaw 스타일의 구조를 따르며, 런타임에 기술 라이브러리에서 필요한 기술을 동적으로 로드한다. 각 세션은 단순한 텍스트 로그가 아니라 도구 호출 결과와 오류 메시지를 포함한 구조화된 궤적으로 기록되어 진화의 근거로 활용된다.
Agentic Evolver는 LLM이 기술 엔지니어 역할을 수행하도록 설계된 프롬프트 하네스를 사용한다. 이 하네스는 기술의 현재 정의, 관련 세션 요약, 허용된 작업 세트를 제공하며, LLM은 이를 바탕으로 개방형 추론을 수행한다. 특히 'History Ledger' 시스템을 통해 과거의 수정 이력과 그 근거가 된 증거를 참조함으로써, 이전의 개선 사항을 되돌리거나 동일한 실수를 반복하지 않도록 제어한다.
구현 측면에서 기술은 마크다운 형식의 절차적 아티팩트로 관리되며, 이는 LLM이 읽고 수정하기 용이한 형태이다. 검증 단계에서는 'Monotonic Deployment' 원칙을 고수하여, 실제 실행 환경에서의 벤치마크 점수가 기존 대비 낮아질 경우 업데이트를 거부함으로써 시스템의 퇴보를 방지한다.
한계점
본 연구는 소규모 사용자 그룹과 제한된 시간(6일) 동안의 실험 결과를 바탕으로 하고 있어, 대규모 환경에서의 확장성이나 장기적인 기술 충돌 문제는 추가 연구가 필요하다. 또한 검증 단계에서 발생하는 추가적인 토큰 비용과 컴퓨팅 자원 소모가 한계점으로 지적된다.
실무 활용
기업 내 멀티 에이전트 시스템이나 개인용 AI 비서 서비스에서 사용자들의 피드백을 바탕으로 시스템을 자동 고도화하는 데 즉시 활용 가능하다.
- 사내 API 호출 에이전트가 빈번한 인증 오류 패턴을 학습하여 자동으로 재시도 로직이나 올바른 파라미터 가이드를 기술에 반영
- 데이터 분석 에이전트가 특정 라이브러리 버전 충돌을 경험한 후, 환경 설정 단계를 포함하는 개선된 분석 기술로 스스로 업데이트
- 고객 응대 에이전트가 반복되는 오답 상황을 분석하여 특정 도메인 지식을 보강한 새로운 응대 기술을 생성 및 전사 배포
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.