에이전트 스킬은 실제 환경에서 얼마나 잘 작동하는가: 현실적인 설정에서의 LLM 스킬 사용 벤치마킹

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM 에이전트의 능력을 확장하는 핵심 수단인 '스킬(Skill)'이 이상적인 실험실 환경을 벗어나 대규모 라이브러리에서 직접 검색하고 선택해야 하는 현실적인 상황에 놓일 때 성능이 얼마나 취약해지는지 분석했다. 특히 검색된 스킬을 작업에 맞게 정제하는 'Query-specific Refinement' 기법이 에이전트의 성공률을 유의미하게 회복할 수 있음을 입증하여 실무 에이전트 설계의 방향성을 제시한다.

왜 중요한가

핵심 기여

현실적 스킬 사용 평가 프레임워크 구축

기존의 수작업으로 선별된 스킬 제공 방식에서 벗어나, 34,000개의 실제 스킬 라이브러리에서 에이전트가 직접 검색, 선택, 적응해야 하는 단계별 난이도의 평가 환경을 제안했다.

에이전트 하이브리드 검색 전략의 우수성 입증

단순한 시맨틱 검색보다 에이전트가 반복적으로 쿼리를 생성하고 후보를 평가하는 'Agentic Hybrid Search'가 Recall@5 기준 65.5%를 기록하며 가장 효과적임을 확인했다.

쿼리 기반 스킬 정제 기법 제안

검색된 스킬이 작업과 완벽히 일치하지 않을 때, 에이전트가 작업을 탐색한 후 스킬을 재구성하는 'Query-specific Refinement'를 통해 Claude Opus 4.6의 성능을 57.7%에서 65.5%로 향상시켰다.

핵심 아이디어 이해하기

LLM 에이전트에게 스킬을 부여하는 것은 마치 요리사에게 레시피 북을 주는 것과 같다. 기존 연구들은 요리사에게 딱 맞는 레시피 한 장을 손에 쥐여준 상태(Idealized)에서 요리 실력을 측정했지만, 실제 환경에서는 요리사가 수만 권의 책이 쌓인 도서관에서 직접 레시피를 찾아내고(Retrieval), 그 레시피가 자신의 주방 도구와 맞지 않으면 수정(Adaptation)까지 해야 한다.

이 논문은 이 과정에서 발생하는 병목 현상을 '임베딩(Embedding)'과 '에이전트의 판단력' 관점에서 분석한다. 에이전트는 단순히 스킬의 이름과 설명만 보고는 그것이 정말 유용한지 판단하기 어려워하며, 노이즈가 섞인 스킬을 그대로 따르다가 오히려 성능이 저하되는 현상이 발생한다. 이를 해결하기 위해 에이전트가 먼저 작업을 시도해보고 어떤 정보가 부족한지 깨달은 뒤 스킬을 다시 쓰는 '반추(Reflection)' 과정을 도입했다.

결과적으로 스킬은 고정된 도구가 아니라, 에이전트가 현재 맥락에 맞게 재해석하고 결합해야 하는 유연한 지식 조각으로 다뤄질 때 비로소 실제 복잡한 워크플로우에서 제 성능을 발휘할 수 있다.

방법론

스킬 검색을 위해 두 가지 표현형을 인덱싱한다. 스킬 이름과 설명을 합친 metadata와 SKILL.md 파일의 전체 내용인 full content를 각각 Qwen3-Embedding-4B를 통해 벡터화하고 BM25 지수를 생성한다.

에이전트 하이브리드 검색(Agentic Hybrid Search)은 에이전트에게 검색 도구를 부여하고 반복적으로 쿼리를 수행하게 한다. [에이전트가 생성한 쿼리 입력 → BM25 및 코사인 유사도 연산 → 후보 스킬 리스트 출력 → 에이전트의 유효성 평가] 순으로 진행되어 최종 스킬 셋을 결정한다.

쿼리 기반 정제(Query-specific Refinement)는 에이전트가 실제 작업을 수행하며 스킬의 유용성을 직접 체험하는 단계를 포함한다. [검색된 스킬로 작업 시도 → 성공/실패 여부 및 스킬의 도움 정도 판단 → 유용한 부분만 추출 및 병합 → 새로운 맞춤형 스킬 생성] 과정을 거쳐 노이즈를 제거하고 가독성을 높인다.

주요 결과

SKILLSBENCH 평가 결과, 수작업으로 선별된 스킬을 강제로 로드했을 때 Claude Opus 4.6은 55.4%의 성공률을 보였으나, 34k 스킬 라이브러리에서 직접 검색하게 하자 40.1%로 급락했다. 특히 스킬이 작업과 직접 관련이 없는 경우, Kimi K2.5나 Qwen3.5 같은 모델은 스킬이 없는 베이스라인보다 더 낮은 성능을 기록하여 잘못된 정보에 오도되는 취약성을 보였다.

정제 전략 비교에서 Query-agnostic(작업 무관 정제)은 성능 향상이 미미하거나 일관되지 않았으나, Query-specific(작업 기반 정제)은 Claude의 성능을 40.1%에서 48.2%로 회복시켰다. TERMINAL-BENCH 2.0에서도 검색과 정제를 결합했을 때 모든 모델에서 성능 향상이 관찰되었으며, Claude는 57.7%에서 65.5%로, Kimi는 46.6%에서 56.2%로 성공률이 상승했다.

기술 상세

본 연구는 에이전트 스킬을 단순한 도구 호출(Tool use) 이상의 '재사용 가능한 지식 아티팩트'로 정의한다. 아키텍처는 크게 Skill Index, Agentic Search Engine, Refinement Module로 구성된다. 검색 단계에서는 Reciprocal Rank Fusion(RRF)을 사용하여 키워드와 시맨틱 점수를 결합하며, RRF 점수는 Σ ws / (k + rs) [가중치 ws를 순위 rs와 상수 k의 합으로 나눈 값들의 총합]으로 계산되어 서로 다른 검색 방식의 결과 순위를 통합한다.

Refinement 과정에서는 Anthropic의 'skill-creator' 메타 스킬을 활용한다. 이는 에이전트가 스킬을 작성할 때 준수해야 할 베스트 프랙티스를 프롬프트 형태로 제공하며, 에이전트가 여러 스킬에서 필요한 정보를 추출(Extract)하고 합성(Synthesize)하여 단일한 일관된 가이드라인을 만들도록 유도한다. 실험을 통해 초기 검색된 스킬의 품질(LLM Judge 점수 3.83점 이상)이 정제 효과의 multiplier 역할을 함을 입증했다.

한계점

쿼리 기반 정제(Query-specific Refinement)는 추론 시점에 전체 작업을 한 번 탐색해야 하므로 비용과 시간이 많이 소요된다. 또한 초기 검색 단계에서 관련 있는 스킬이 전혀 포함되지 않은 경우(Coverage 부족), 정제 과정을 통해서도 성능을 회복하기 어렵다는 한계가 있다.

실무 활용

대규모 사내 위키나 코드 저장소에서 에이전트가 스스로 지식을 찾아 작업을 수행해야 하는 엔터프라이즈 에이전트 시스템 구축에 직접적으로 활용 가능하다.

수만 개의 API 문서가 있는 환경에서 개발 에이전트가 필요한 라이브러리 사용법을 스스로 찾아 코드를 작성하는 시나리오
복잡한 사내 규정집(PDF)에서 특정 사례에 맞는 절차를 검색하고, 현재 상황에 맞게 요약하여 가이드를 생성하는 법률/행정 에이전트
다양한 데이터 분석 스크립트가 저장된 라이브러리에서 분석 목적에 맞는 코드를 추출 및 수정하여 실행하는 데이터 사이언스 에이전트

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)Agent(에이전트)Skill Retrieval(스킬 검색)Skill Refinement(스킬 정제)Benchmark(벤치마크)RAG(검색 증강 생성)