핵심 요약
LLM 에이전트가 사용할 수 있는 도구와 스킬이 수천 개로 늘어남에 따라, 전체 스킬을 프롬프트에 넣는 방식은 비용과 성능 면에서 한계에 도달했다. 이 논문은 스킬 간의 실행 의존성을 그래프 구조로 관리하여, 단순 키워드 검색으로는 찾기 힘든 필수 보조 스킬까지 정확하게 찾아내는 새로운 검색 계층을 제안한다.
왜 중요한가
LLM 에이전트가 사용할 수 있는 도구와 스킬이 수천 개로 늘어남에 따라, 전체 스킬을 프롬프트에 넣는 방식은 비용과 성능 면에서 한계에 도달했다. 이 논문은 스킬 간의 실행 의존성을 그래프 구조로 관리하여, 단순 키워드 검색으로는 찾기 힘든 필수 보조 스킬까지 정확하게 찾아내는 새로운 검색 계층을 제안한다.
핵심 기여
Graph of Skills (GoS) 프레임워크 제안
오프라인에서 스킬 간의 의존성 및 워크플로우 관계를 그래프로 구축하고, 온라인 추론 시점에 구조적 검색을 수행하는 에이전트용 스킬 검색 계층을 도입했다.
의존성 인식 구조적 검색 알고리즘
Hybrid semantic-lexical seeding과 Reverse-weighted Personalized PageRank를 결합하여, 상위 수준의 스킬뿐만 아니라 실행에 필수적인 하위 의존성 스킬들을 함께 추출한다.
성능 및 효율성 동시 개선
SkillsBench 및 ALFWorld 벤치마크에서 기존 전체 스킬 로딩 방식 대비 평균 보상을 43.6% 높이는 동시에 입력 토큰 사용량을 37.8% 절감했다.
핵심 아이디어 이해하기
기존의 LLM 에이전트는 모든 도구 설명을 프롬프트에 넣거나(Vanilla), 의미적으로 유사한 도구만 검색(Vector Retrieval)하여 사용했다. 하지만 Transformer 기반 모델은 컨텍스트가 길어질수록 중요한 정보를 놓치는 'Lost in the Middle' 현상이 발생하며, 단순 벡터 검색은 '데이터 변환기'나 '설정 유틸리티'처럼 이름은 다르지만 실행에 꼭 필요한 보조 도구들을 누락시키는 한계가 있다.
GoS는 스킬들을 노드로, 스킬 간의 입출력 호환성을 엣지로 연결한 '스킬 그래프'를 활용한다. 사용자의 질문과 가장 유사한 '시드 스킬'을 먼저 찾은 뒤, 그래프를 따라 역방향으로 탐색하며 해당 스킬을 실행하는 데 필요한 전제 조건 스킬들을 함께 묶음(Bundle)으로 가져온다.
이 과정에서 Personalized PageRank 알고리즘을 변형하여 적용함으로써, 질문과의 직접적인 유사도는 낮더라도 실행 구조상 중요한 스킬들이 높은 점수를 얻게 한다. 결과적으로 에이전트는 꼭 필요한 도구들만 포함된 압축된 컨텍스트를 전달받아 더 정확하고 저렴하게 작업을 수행할 수 있다.
관련 Figure

Vanilla 방식은 전체를 넣어 토큰이 낭비되고, Vector 방식은 의미적 유사도에만 의존해 필수 전제 스킬(T3)을 놓친다. 반면 GoS는 그래프 구조를 통해 시드 스킬(T5)과 연결된 필수 의존 스킬(T1, T3)을 정확히 묶음으로 추출함을 보여준다.
Vanilla Skills, Vector Skills, Graph of Skills 세 가지 스킬 로딩 방식의 개념적 비교 다이어그램
방법론
GoS는 오프라인 인덱싱과 온라인 검색의 두 단계로 구성된다. 오프라인 단계에서는 각 스킬 패키지를 분석하여 I/O 스키마, 엔트리포인트 등을 추출하고 이를 기반으로 Dependency, Workflow, Semantic, Alternative라는 네 가지 타입의 엣지를 가진 유향 그래프(Directed Graph)를 생성한다.
온라인 검색 단계에서는 먼저 사용자의 쿼리를 분석하여 Semantic 및 Lexical 점수를 계산하고 이를 혼합하여 초기 시드 분포 p를 생성한다. [쿼리와 스킬 설명 간의 유사도 계산 → 가중치 η를 적용한 점수 합산 → 소프트맥스 정규화를 통한 확률 분포 p 생성]
이후 Reverse-aware Personalized PageRank를 통해 그래프 상에서 점수를 확산시킨다. s(ℓ+1) = αp + (1-α)Tᵀs(ℓ) 수식을 사용하여 계산하며, 여기서 T는 전방향 및 역방향 전이 확률을 결합한 행렬이다. [현재 점수 s에 전이 행렬 T를 곱해 인접 노드로 점수 전달 → 초기 시드 p를 일정 비율(α)만큼 다시 더함 → 수렴할 때까지 반복하여 최종 구조적 중요도 s* 산출]. 마지막으로 정해진 토큰 예산 내에서 점수가 높은 스킬들을 선택하고 에이전트가 즉시 실행 가능한 형태로 정보를 구성(Hydration)하여 반환한다.
관련 Figure

오프라인에서 스킬 레코드를 정규화하고 I/O 매칭으로 의존성 엣지를 만드는 과정과, 온라인에서 쿼리 재작성 및 PPR 기반 확산을 통해 최종 스킬 번들을 생성하는 전체 메커니즘을 상세히 설명한다.
GoS의 전체 파이프라인: 오프라인 인덱싱, 그래프 구축, 온라인 검색의 3단계 프로세스
주요 결과
SkillsBench 벤치마크에서 GoS는 Claude Sonnet 4.5 기준 31.0%의 보상을 기록하여 Vanilla(25.0%) 및 Vector Skills(19.3%)를 크게 앞질렀다. 특히 Vector Skills가 단순 유사도 검색의 한계로 인해 필수 의존성 스킬을 놓쳐 성능이 하락하는 반면, GoS는 구조적 검색을 통해 이를 극복했다.
ALFWorld 환경에서도 GoS는 97.9%의 성공률을 달성하며 Vanilla(89.3%) 대비 높은 성능을 보였다. 토큰 효율성 측면에서는 Vanilla 방식이 스킬 라이브러리 크기에 따라 토큰 사용량이 선형적으로 증가하는 것과 달리, GoS는 라이브러리가 2,000개로 늘어나도 토큰 사용량을 일정 수준(약 1.14M~1.38M)으로 유지하며 비용 효율성을 입증했다.
Ablation Study 결과, 그래프 전파(Graph Propagation) 과정을 제거했을 때 보상이 34.4%에서 29.3%로 하락하여, 스킬 간의 구조적 관계를 활용하는 것이 실행 성공률에 핵심적인 역할을 함이 확인됐다.
기술 상세
GoS 아키텍처는 HNSW 벡터 인덱스와 유향 그래프를 결합한 하이브리드 구조를 취한다. 노드 정규화 과정에서 LLM을 활용해 부족한 메타데이터를 보충하며, 엣지 생성 시에는 I/O 호환성 검사를 통해 실행 가능한 의존성을 명시적으로 정의한다.
검색 알고리즘의 핵심인 Reverse-aware Typed Diffusion은 엣지 타입별로 다른 가중치를 부여한다. Dependency 엣지에는 가장 높은 역방향 가중치(1.0)를 부여하여 상위 스킬이 선택될 때 하위 의존 스킬이 함께 선택될 확률을 극대화한다. 반면 Semantic(0.2)이나 Alternative(0.1) 엣지에는 낮은 가중치를 부여하여 주제 이탈(Topical Drift)을 방지한다.
구현 측면에서 GoS는 'Hydration'이라는 개념을 도입하여, 선택된 스킬의 소스 경로, 요약된 기능 설명, 실행 주의사항 등을 에이전트가 소비하기 가장 좋은 형태의 페이로드로 변환한다. 이는 단순한 검색 결과 나열을 넘어 에이전트의 추론 경로를 가이드하는 역할을 한다.
한계점
GoS의 성능은 오프라인에서 구축된 그래프의 품질에 크게 의존한다. 스킬 문서화가 부실하거나 I/O 스키마가 모호한 경우 엣지 생성 오류가 발생할 수 있다. 또한 현재 시스템은 정적 그래프를 사용하므로, 실행 결과나 사용자 피드백을 통해 실시간으로 엣지 가중치를 업데이트하는 기능은 포함되어 있지 않다.
실무 활용
수백 개 이상의 API나 내부 스크립트를 보유한 기업용 AI 에이전트 시스템에 즉시 적용 가능하다. 특히 복잡한 데이터 파이프라인이나 엔지니어링 도구를 다루는 에이전트의 정확도를 높이고 운영 비용을 절감하는 데 효과적이다.
- 수천 개의 내부 API를 보유한 기업용 워크플로우 자동화 에이전트
- 다양한 라이브러리와 의존성이 얽혀 있는 자율 코딩 에이전트
- 복잡한 장비 제어 및 설정 유틸리티가 필요한 로보틱스 제어 시스템
- 데이터 전처리, 분석, 시각화 도구가 연쇄적으로 필요한 데이터 과학 에이전트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.