SkillX: 에이전트를 위한 기술 지식 베이스 자동 구축 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 LLM 에이전트는 새로운 작업을 수행할 때마다 처음부터 추론을 시작하여 비용이 많이 들고 일반화 능력이 부족한 한계가 있었다. SkillX는 에이전트의 경험을 계층적인 기술 지식으로 자동 변환하여 저장함으로써, 서로 다른 모델과 환경에서도 즉시 재사용 가능한 플러그 앤 플레이 방식의 지식 베이스를 제공한다.

왜 중요한가

핵심 기여

계층적 기술 설계 (Multi-Level Skills Design)

에이전트의 실행 궤적을 전략적 계획(Planning), 기능적 기술(Functional), 원자적 기술(Atomic)의 3단계 계층 구조로 정제하여 저장한다.

반복적 기술 정제 (Iterative Skills Refinement)

실행 피드백을 바탕으로 기존 기술을 병합하거나 필터링하여 지식 베이스의 품질을 지속적으로 개선하는 텍스트 기반 최적화 루프를 도입했다.

탐색적 기술 확장 (Exploratory Skills Expansion)

학습 데이터에 없는 새로운 도구 사용법이나 실패하기 쉬운 동작을 선제적으로 탐색하고 검증하여 지식의 범위를 확장한다.

플러그 앤 플레이 전수 가능성 입증

강력한 모델(GLM-4.6)에서 추출한 기술 지식을 상대적으로 약한 모델(Qwen3-32B 등)에 주입했을 때 성능이 크게 향상됨을 실험으로 증명했다.

핵심 아이디어 이해하기

LLM 에이전트가 복잡한 작업을 수행할 때, 매번 전체 실행 이력을 컨텍스트에 넣는 방식은 토큰 소모가 크고 추론의 복잡도를 높인다. 이는 딥러닝에서 고차원의 원시 데이터를 그대로 처리하는 대신, 핵심 특징을 추출하여 임베딩 공간에 표현하는 것과 유사한 문제를 야기한다. 기존의 에이전트 학습 방식은 각 에이전트가 고립된 상태에서 유사한 행동을 반복적으로 재발견해야 하는 비효율성을 가졌다.

SkillX는 이러한 원시 실행 궤적(Raw Trajectories)을 추상화된 '기술(Skill)' 단위로 구조화한다. 이는 마치 프로그래밍에서 반복되는 코드를 함수화하여 라이브러리로 만드는 것과 같다. 특히 기술을 세 가지 입도(Granularity)로 나누어 저장함으로써, 에이전트가 당면한 문제의 맥락에 맞는 최적의 기술만 선택적으로 호출(Retrieval)할 수 있게 한다.

결과적으로 에이전트는 모든 과정을 처음부터 추론하는 대신, 검증된 기술 라이브러리에서 필요한 모듈을 가져와 조합한다. 이는 모델의 파라미터를 수정하지 않고도 외부 지식을 통해 성능을 개선하는 RAG(검색 증강 생성)의 원리를 에이전트의 행동 영역으로 확장한 것이다.

방법론

SkillX의 파이프라인은 기술 추출, 정제, 확장 및 사용의 네 단계로 구성된다. 먼저 성공적인 실행 궤적에서 Planning(고수준 단계), Functional(도구 조합 루틴), Atomic(개별 도구 사용법) 기술을 추출한다.

기술 정제 단계에서는 코사인 유사도(Cosine Similarity)를 기반으로 의미적으로 유사한 기술들을 클러스터링하고 병합한다. [유사도 점수 계산 → 임계값 이상 클러스터링 → 통합 기술 생성 → 중복 제거] 과정을 통해 지식 베이스의 밀도를 높인다. 또한 Python 패키지 의존성이나 도구 스키마 적합성을 검사하는 2단계 필터링을 거쳐 기술의 이식성을 확보한다.

기술 확장 단계에서는 '경험 유도 탐색(Experience Guiding Exploration)'을 사용한다. 에이전트가 자주 실패하거나 사용해 보지 않은 도구를 우선적으로 탐색하도록 새로운 작업을 합성(Synthesis)하고, 이를 통해 얻은 데이터로 지식 베이스를 보강한다.

실제 작업 수행 시에는 '의사 계획 재작성(Pseudo-Plan Rewriting)' 메커니즘을 적용한다. [사용자 쿼리 입력 → 유사 계획 검색 → 현재 맥락에 맞는 의사 계획 생성 → 관련 기술 추출] 순으로 동작하여, 검색된 지식과 실제 실행 환경 간의 간극을 메운다.

주요 결과

AppWorld, BFCL-v3, τ2-Bench 등 복잡한 도구 사용 벤치마크에서 실험을 진행했다. Qwen3-32B 모델에 SkillX 지식 베이스를 적용했을 때, 메모리를 사용하지 않는 기본 상태 대비 모든 벤치마크에서 약 10% 포인트 이상의 성능 향상을 기록했다.

실행 효율성 측면에서도 유의미한 결과가 나타났다. SkillX를 사용한 에이전트는 작업을 완료하는 데 필요한 실행 단계(Execution Steps)를 줄였으며, 특히 강력한 모델인 GLM-4.6에서 추출한 지식을 하위 모델에 주입했을 때 하위 모델의 기본 성능 한계를 돌파하는 효과를 보였다.

Ablation Study 결과, 계층적 기술 설계와 반복적 정제 과정이 모두 성능 향상에 기여함을 확인했다. 특히 탐색적 확장을 통해 구축된 지식 베이스는 무작위 탐색 대비 훨씬 더 다양하고 유용한 기술들을 포함하는 것으로 나타났다.

기술 상세

SkillX 아키텍처는 에이전트의 경험을 구조화된 지식으로 변환하는 '경험 지식 베이스(Experience KB)' 구축에 초점을 맞춘다. 핵심 차별점은 기술의 계층화로, Planning Skills는 고수준의 논리적 흐름을, Functional Skills는 특정 하위 작업을 수행하는 코드 블록을, Atomic Skills는 개별 API 호출의 제약 사항과 팁을 담는다.

수학적으로 기술 병합은 최적화 관점에서 접근한다. 특정 기술 s에 대해 유사한 기술들의 업데이트 방향 δi를 집계하여 s+ = s + Σδi 형태로 최종 기술을 갱신한다. 이는 경사 하강법과 유사하게 여러 실행 사례로부터 얻은 피드백을 하나의 정제된 기술 정의로 수렴시키는 과정이다.

구현 측면에서는 FAISS와 HNSW 인덱스를 사용하여 대규모 기술 라이브러리에서 고속 검색을 수행하며, Maximal Marginal Relevance(MMR) 알고리즘을 도입해 검색된 기술들 간의 다양성을 확보하고 중복 정보를 최소화한다.

한계점

SkillX는 현재 도구 사용 환경이 비교적 안정적인 경우에 가장 잘 작동하며, 도구 스키마가 극심하게 변하는 환경에서의 이식성은 여전히 도전 과제로 남아 있다. 또한 현재 연구는 주로 도구 사용 및 텍스트 기반 상호작용에 집중되어 있어, 함수 호출이 없는 순수 대화형 시나리오에 대한 최적화는 향후 과제로 명시되었다.

실무 활용

SkillX는 특정 도구나 API 환경에 특화된 에이전트를 구축할 때, 반복적인 시행착오 비용을 줄이고 지식을 자산화하는 데 즉시 활용 가능하다.

기업 내 복잡한 내부 API 및 워크플로우를 수행하는 전용 코딩/업무 에이전트 구축
성능이 낮은 소형 언어 모델(SLM)에 고성능 모델의 노하우를 주입하여 성능 고도화
다양한 도구 사용 시나리오에서 에이전트의 오류 패턴을 분석하고 자동으로 가이드라인 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM Agent(LLM 에이전트)Knowledge Base(지식 베이스)Hierarchical Representation(계층적 표현)Experience Learning(경험 학습)Tool Use(도구 사용)