SKILLFLOW: 자율 에이전트를 위한 평생 스킬 발견 및 진화 벤치마킹

기존 에이전트 평가는 주어진 도구의 사용 능력에만 집중했으나, 실제 환경에서는 에이전트가 경험을 통해 스스로 스킬을 발견하고 오류를 수정하는 능력이 필수적이다. 이 논문은 에이전트가 시간이 지남에 따라 스킬 라이브러리를 어떻게 진화시키는지 측정하는 새로운 프레임워크를 제공하여 자율 학습 에이전트 연구의 새로운 방향을 제시한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

SKILLFLOW 벤치마크 구축

20개 작업군과 166개의 실행 가능한 작업으로 구성된 벤치마크를 구축하여 에이전트의 평생 학습 능력을 체계적으로 평가한다.

DAEF(Domain-Agnostic Execution Flow) 프레임워크

도메인에 의존하지 않는 워크플로우 추상화를 통해 서로 다른 도메인 간의 스킬 전이 학습을 가능하게 하는 구조를 설계했다.

에이전트 평생 학습 프로토콜 정의

스킬 없이 시작하여 작업을 순차적으로 해결하고, 실행 궤적과 피드백을 통해 스킬 패치를 생성하여 라이브러리를 업데이트하는 평가 절차를 수립했다.

모델별 스킬 진화 양상 분석

Claude Opus 4.6 등 최신 모델들이 스킬 진화를 통해 성능을 개선하는 반면, 약한 모델들은 스킬 인플레이션과 오류 누적으로 인해 성능이 퇴보하는 현상을 규명했다.

핵심 아이디어 이해하기

기존의 자율 에이전트는 고정된 함수나 API를 호출하는 수준에 머물러 있으며, 새로운 상황에서 얻은 교훈을 다음 작업에 활용하는 '지속적 학습' 능력이 부족하다. 이는 에이전트가 매번 처음부터 문제를 해결해야 하거나, 과거의 실수를 반복하게 만드는 원인이 된다. SKILLFLOW는 에이전트가 작업 수행 후 얻은 실행 궤적(Trajectory)과 검증 결과(Rubric)를 바탕으로 스스로 '스킬 패치'를 작성하게 함으로써 이 문제를 해결한다.

핵심 원리는 작업을 도메인 특화 정보가 제거된 추상적 흐름인 DAEF로 바라보는 것이다. 예를 들어 '재무 데이터 분석'과 '의료 기록 정리'는 도메인은 다르지만 '데이터 읽기 → 특정 필드 추출 → 계산 → 결과 출력'이라는 동일한 논리적 구조(Embedding 공간에서의 유사성)를 공유할 수 있다. 에이전트는 이 구조 위에서 범용적인 절차적 지식을 스킬 형태로 외부 저장소에 기록한다.

결과적으로 에이전트는 단순한 텍스트 로그가 아니라, 실행 가능한 코드나 구체적인 결정 규칙이 담긴 스킬 라이브러리를 구축한다. 이는 모델의 컨텍스트 윈도우에 단순히 과거 이력을 집어넣는 것보다 훨씬 효율적이며, Claude Opus 4.6과 같은 강력한 모델에서는 실제 작업 성공률을 유의미하게 높이는 결과로 이어진다.

방법론

SKILLFLOW의 방법론은 DAEF 기반의 작업 생성과 Agentic Lifelong Learning 프로토콜로 나뉜다. 먼저 64개의 시드 작업에서 핵심 연산 단계(read, extract, compute 등)를 추출하여 DAEF 그래프를 구성한다. 이후 Architect 에이전트와 Critic 에이전트가 협력하여 이 DAEF를 다양한 도메인으로 확장하고 난이도 경사를 가진 작업군을 생성한다.

에이전트 평가 시에는 각 작업 t에 대해 현재 스킬 라이브러리 S(t-1)을 사용하여 작업을 수행하고 실행 궤적 τ(t)와 피드백 r(t)를 얻는다. 모델은 이를 입력으로 받아 새로운 스킬 패치 Δ(t)를 생성하는데, 이는 JSON 형식으로 요약, 파일 추가/수정(upsert), 삭제(delete) 정보를 포함한다. [이전 스킬 S(t-1) + 현재 결과 τ(t), r(t) → 모델 연산 → 업데이트된 스킬 S(t)] 과정을 통해 지식이 누적된다.

수학적으로 작업은 T=(V, E, λ, γ)로 정의되며, 여기서 V는 실행 가능한 하위 목표들의 집합, E는 의존성 엣지, λ는 도메인 불가지론적 연산 타입, γ는 구체적인 파일명이나 엔티티와 같은 도메인 접지 정보를 의미한다. DAEF는 이 T에서 γ를 제거한 추상화된 그래프 F=φ(T)로 표현되어 작업 간의 구조적 유사성을 보존한다.

관련 Figure

#1Diagram
에이전트가 작업을 해결하며 얻은 궤적과 피드백을 통해 스킬 패치를 생성하고, 이를 스킬 라이브러리에 축적하여 다음 작업에 적용하는 순환 구조를 설명한다. 우측의 지표 비교는 성공률, 비용, 토큰 효율성 등 다각도 평가 기준을 제시한다.
SKILLFLOW의 개념적 개요도로, 기존의 정적 스킬 평가와 제안하는 평생 학습 설정을 비교하여 보여준다.

주요 결과

실험 결과, Claude Opus 4.6은 평생 스킬 진화를 통해 작업 성공률이 62.65%에서 71.08%로 8.43%p 향상되는 가장 뚜렷한 성과를 보였다. 특히 이 모델은 단순히 성공 사례를 쌓는 것이 아니라, 실패 후 스킬을 수정(Repair)하여 재사용하는 능력이 탁월했다. 반면 Kimi K2.5는 스킬 사용률이 66.87%에 달했음에도 성공률 향상은 0.60%p에 그쳐 스킬의 질적 유용성이 낮음을 보여주었다.

효율성 측면에서 강력한 모델들은 스킬 라이브러리를 작고 정교하게 유지(Consolidation)하는 경향을 보였다. 반면 Qwen-Coder-Next와 같은 모델은 모든 작업을 개별 스킬로 저장하려는 '스킬 인플레이션' 현상을 보이며 라이브러리가 비대해졌고, 오히려 성능이 퇴보하는 결과가 나타났다. 이는 에이전트에게 스킬을 '작성'하는 능력보다 잘못된 스킬을 '수정'하고 '통합'하는 능력이 더 중요함을 시사한다.

관련 Figure

#3Chart
Claude Opus 4.6 모델이 스킬 진화(별표 표시)를 통해 비용은 낮추면서 성공률은 높이는 가장 이상적인 성능 향상을 보임을 시각화한다. 반면 일부 모델은 비용만 증가하고 성능은 정체되거나 하락하는 양상을 보인다.
평균 비용 대비 평균 성공률을 나타낸 파레토 프런티어 그래프이다.

#5Chart
강력한 모델(Opus 4.6)은 스킬 수를 일정하게 유지하며 지식을 압축하는 반면, 약한 모델(Qwen-Coder)은 모든 작업을 개별 스킬로 저장하여 스킬 수가 급격히 증가하는 '스킬 인플레이션' 현상을 극명하게 보여준다.
작업 진행에 따른 모델별 누적 스킬 수의 변화를 보여주는 그래프이다.

기술 상세

SKILLFLOW 아키텍처의 핵심은 DAEF(Domain-Agnostic Execution Flow)를 통한 작업의 구조화이다. 각 작업은 5~8개의 메타 단계 노드로 구성된 유향 비순환 그래프(DAG)로 표현된다. 노드 레이블은 'read', 'extract', 'compute', 'validate' 등 통제된 어휘집(Controlled Vocabulary)에서 선택되어 모델이 도메인에 상관없이 절차적 논리를 이해하도록 돕는다.

스킬 패치 생성 시 모델은 고정된 프롬프트 템플릿 g를 사용하여 JSON 객체를 출력한다. 이 객체는 'summary'(학습된 내용), 'upsert_files'(추가/수정할 파일 경로와 내용), 'delete_paths'(삭제할 파일) 필드로 구성된다. 이러한 파일 시스템 기반의 인터페이스는 스킬의 이력을 추적 가능하게 하며, 연구자가 에이전트의 지식 진화 과정을 직접 검사할 수 있게 한다.

학습 프로토콜은 첫 번째 작업에서는 스킬 없이 수행하고, 이후 작업부터는 이전 단계에서 업데이트된 라이브러리를 참조하는 순차적 방식을 따른다. 실험에서는 11종의 모델 변체와 4종의 에이전트 하네스(Claude Code, Codex CLI 등)를 조합하여 평가했다. 특히 단순 컨텍스트 주입(History-context)보다 구조화된 스킬 외부화가 성능 향상에 더 기여함을 대조 실험을 통해 증명했다.

한계점

본 논문은 에이전트가 동일한 작업군(Family) 내에서 순차적으로 학습하는 상황에 집중하고 있으며, 서로 다른 작업군 간의 대규모 교차 전이 학습에 대해서는 시스템 노이즈를 방지하기 위해 제한적으로만 다루고 있다. 또한 현재의 스킬 패치 스키마가 모든 형태의 절차적 지식을 담기에 완벽한 형식은 아닐 수 있음을 명시하고 있다.

실무 활용

자율 코딩 에이전트나 복잡한 워크플로우를 수행하는 엔터프라이즈 AI 시스템에서 에이전트가 스스로 운영 매뉴얼(스킬)을 최적화하도록 설계하는 데 활용할 수 있다.

반복적인 데이터 정제 워크플로우를 수행하는 자율 에이전트의 스킬 자동 생성
에이전트가 실패한 작업에서 교훈을 얻어 스스로 도구 사용법을 수정하는 자가 치유 시스템
서로 다른 부서의 유사한 업무 프로세스 간 지식 전이 및 라이브러리 공유

코드 공개 여부: 공개

코드 저장소 보기

키워드

Autonomous Agent(자율 에이전트)Lifelong Learning(평생 학습)Skill Discovery(스킬 발견)Benchmark(벤치마크)DAEF(도메인 불가지론적 실행 흐름)

SKILLFLOW: 자율 에이전트를 위한 평생 스킬 발견 및 진화 벤치마킹

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

SKILLFLOW 벤치마크 구축

20개 작업군과 166개의 실행 가능한 작업으로 구성된 벤치마크를 구축하여 에이전트의 평생 학습 능력을 체계적으로 평가한다.

DAEF(Domain-Agnostic Execution Flow) 프레임워크

도메인에 의존하지 않는 워크플로우 추상화를 통해 서로 다른 도메인 간의 스킬 전이 학습을 가능하게 하는 구조를 설계했다.

에이전트 평생 학습 프로토콜 정의

모델별 스킬 진화 양상 분석

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

반복적인 데이터 정제 워크플로우를 수행하는 자율 에이전트의 스킬 자동 생성
에이전트가 실패한 작업에서 교훈을 얻어 스스로 도구 사용법을 수정하는 자가 치유 시스템
서로 다른 부서의 유사한 업무 프로세스 간 지식 전이 및 라이브러리 공유

코드 공개 여부: 공개

코드 저장소 보기

키워드

Autonomous Agent(자율 에이전트)Lifelong Learning(평생 학습)Skill Discovery(스킬 발견)Benchmark(벤치마크)DAEF(도메인 불가지론적 실행 흐름)

SKILLFLOW: 자율 에이전트를 위한 평생 스킬 발견 및 진화 벤치마킹

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

SKILLFLOW: 자율 에이전트를 위한 평생 스킬 발견 및 진화 벤치마킹

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드