핵심 요약
터미널 에이전트 학습에 필요한 고품질 실행 궤적 데이터의 부족 문제를 해결하기 위해 시나리오 기반 스킬 그래프를 활용한 자동 합성 프레임워크를 제안한다. 이를 통해 단순한 작업 수의 확장을 넘어 실행 경로의 다양성을 명시적으로 제어함으로써 에이전트의 실질적인 문제 해결 능력을 크게 향상시킨다.
왜 중요한가
터미널 에이전트 학습에 필요한 고품질 실행 궤적 데이터의 부족 문제를 해결하기 위해 시나리오 기반 스킬 그래프를 활용한 자동 합성 프레임워크를 제안한다. 이를 통해 단순한 작업 수의 확장을 넘어 실행 경로의 다양성을 명시적으로 제어함으로써 에이전트의 실질적인 문제 해결 능력을 크게 향상시킨다.
핵심 기여
SkillSynth 프레임워크 개발
시나리오를 매개로 스킬을 연결하는 그래프 구조를 구축하고, 이를 기반으로 실제 워크플로우를 모방한 터미널 작업을 자동 합성하는 엔드투엔드 시스템을 구축했다.
시나리오 매개 스킬 그래프 구축
82,073개의 시나리오와 57,214개의 필터링된 스킬을 연결하여 185,529개의 LLM 검증 브릿지를 포함하는 대규모 스킬 그래프를 생성했다.
역빈도 경로 샘플링 알고리즘
특정 시나리오나 스킬에 편중되지 않도록 역빈도 가중치를 적용한 샘플링 방식을 도입하여 훈련 데이터의 다양성을 극대화했다.
멀티 에이전트 하네스를 통한 자동 검증
합성된 작업의 실행 가능성을 보장하기 위해 오라클 기반 실행 검증과 루브릭 기반 품질 평가를 결합하여 95.7%의 높은 성공률로 작업을 생성했다.
핵심 아이디어 이해하기
터미널 에이전트의 실행 궤적은 단순히 명령어의 나열이 아니라, 특정 상태(Scenario)에서 적절한 기술(Skill)을 적용하여 다음 상태로 전이하는 과정의 연속이다. 기존의 합성 방식은 단순히 작업의 종류를 늘리는 데 집중하여 에이전트가 학습 과정에서 경험하는 시나리오와 스킬 조합의 다양성을 충분히 확보하지 못했다.
SkillSynth는 이러한 한계를 극복하기 위해 모든 터미널 조작을 '전제 조건 시나리오 → 스킬 실행 → 결과 시나리오'라는 원자적 단위로 분해한다. 이를 Embedding similarity와 LLM 판단을 통해 거대한 그래프로 연결함으로써, 개별 스킬들이 어떻게 복합적인 워크플로우로 이어질 수 있는지 구조화한다.
결과적으로 에이전트는 그래프에서 샘플링된 복잡한 경로를 따라 생성된 작업을 해결하며, 기존의 단일 스킬 기반 작업보다 훨씬 더 높은 난이도와 다양한 예외 상황을 경험하게 된다. 이는 에이전트가 단순히 명령어를 외우는 것이 아니라 시나리오에 따른 전략적 선택 능력을 학습하게 함을 의미한다.
관련 Figure

그래프 상의 추상적인 스킬 흐름(Video Analyzer -> Frame Extractor -> GIF Generator)이 어떻게 구체적인 터미널 작업 지시문과 내부 워크플로우로 확장되는지 구체적인 예시를 제공한다.
비디오 도메인 작업을 예시로 들어 스킬 그래프 체인과 실제 작업 지시문의 대응 관계를 보여준다.
방법론
SkillSynth의 방법론은 크게 세 단계로 나뉜다. 첫 번째는 스킬 그래프 구축 단계로, ClawHub 및 GitHub에서 수집한 스킬들로부터 LLM을 이용해 전제 조건과 사후 조건 시나리오를 추론한다. 이후 Hierarchical Agglomerative Clustering을 통해 중복 시나리오를 병합하고, 스킬 간의 의미적 호환성을 검증하여 방향성 멀티그래프(Directed Multigraph)를 형성한다.
두 번째는 그래프 기반 경로 샘플링 단계다. 단순한 Random Walk 대신 역빈도 가중치 p(σ) ∝ (ν(σ)+1)⁻¹를 사용하여 방문 횟수가 적은 시나리오와 스킬이 더 자주 선택되도록 유도한다. 이는 데이터 분포를 균등하게 만들어 에이전트의 학습 범위를 넓히는 역할을 한다.
마지막은 멀티 에이전트 하네스를 이용한 작업 인스턴스화 단계다. 샘플링된 경로를 입력으로 받아 Planner가 구조적 계획을 세우고, Constructor가 Dockerfile 및 검증 스크립트를 포함한 실제 작업 환경을 구축한다. 생성된 작업은 실행 기반 검증(Execution-based verification)과 루브릭 기반 검증(Rubric-based verification)을 거치며, 실패 시 최대 3회의 수정 루프를 수행한다.
관련 Figure

스킬 그래프에서 경로를 샘플링하고, 이를 멀티 에이전트 하네스(Planner, Constructor, Verification)를 통해 실행 가능한 작업으로 변환하는 과정을 시각화한다. 특히 검증 실패 시 수정 루프를 거치는 반복적 구조가 핵심이다.
SkillSynth의 전체 프레임워크 개요도로 스킬 그래프, 합성 하네스, 최종 작업 인스턴스의 구성을 보여준다.
주요 결과
SkillSynth는 단일 자동 실행으로 3,560개의 검증된 작업 인스턴스를 생성했으며, 95.7%의 오라클 통과율을 기록했다. 생성된 작업은 기존 방식보다 난이도가 높았으며, Claude Opus 4.6 모델조차 평균 37단계의 조작이 필요했고 121개 작업은 해결하지 못했다.
Qwen3-8B 및 32B 모델을 SkillSynth 데이터로 파인튜닝한 결과, Terminal-Bench 1.0 및 2.0에서 일관된 성능 향상을 보였다. 특히 Qwen3-32B + SS 모델은 훨씬 더 큰 규모의 모델인 Qwen 3 Coder 480B보다 우수한 성능을 기록하며 데이터 다양성의 중요성을 입증했다. 또한, 이 데이터는 Tencent의 Hy3 Preview 모델 학습에도 채택되어 에이전트 능력을 강화하는 데 기여했다.
관련 Figure

SkillSynth가 생성한 데이터가 기존의 Nemotron이나 TerminalTraj보다 훨씬 더 많은 고유 시나리오와 스킬 조합을 포함하고 있음을 보여준다. 특히 (Scenario, Skill) 쌍의 수가 압도적으로 많아 실행 궤적의 다양성이 높음을 입증한다.
기존 데이터셋과 SkillSynth가 생성한 데이터셋의 시나리오, 스킬, (시나리오, 스킬) 쌍의 다양성을 비교한 차트이다.
기술 상세
SkillSynth의 핵심 아키텍처는 시나리오 매개 스킬 그래프 G = (Ω, K)이다. 여기서 Ω는 시나리오 노드 집합이고 K는 스킬 간의 전이를 나타내는 엣지 집합이다. 시나리오 추론 시 LLM은 마크다운 설명, 코드, 사용 예시를 입력으로 받아 추상화된 상태 정보를 생성한다.
시나리오 병합 과정에서는 Louvain 커뮤니티 탐지와 Complete-linkage clustering을 결합하여 의미적으로 동일한 상태를 하나의 노드로 통합함으로써 그래프의 연결성을 확보했다. 경로 샘플링 시에는 Monotone progression을 강제하여 동일 경로 내에서 시나리오나 스킬이 중복되지 않도록 설계했다.
합성 과정에서 Planner와 Constructor를 분리한 것은 긴 컨텍스트 생성 시 발생하는 품질 저하와 구현 세부사항에 매몰되는 문제를 방지하기 위함이다. 검증 단계에서는 Harbor Oracle을 사용하여 실제 실행 가능성을 확인하고, LLM-as-a-Judge를 통해 지시문과 테스트 케이스 간의 정렬 상태를 평가한다.
관련 Figure

원시 스킬 필터링부터 시나리오 추론, 클러스터링을 통한 중복 제거, 그리고 최종적인 그래프 구축까지의 흐름을 설명한다. LLM이 시나리오 정렬 및 병합에 어떻게 관여하는지 잘 보여준다.
스킬 그래프 구축 파이프라인의 상세 단계를 나타낸 다이어그램이다.

코딩 에이전트, 일반 자동화, 문서 처리 등 다양한 도메인을 포괄하고 있음을 보여준다. 이는 SkillSynth가 특정 분야에 국한되지 않고 범용적인 터미널 작업을 생성할 수 있음을 의미한다.
스킬 그래프에 포함된 스킬들의 카테고리별 분포를 나타내는 바 차트이다.
한계점
현재 프레임워크는 스킬 그래프에서 체인 형태의 경로만 샘플링하므로, 여러 스킬을 병렬로 실행해야 하는 더 복잡한 작업 구조를 생성하는 데는 한계가 있다. 또한, 고비용의 LLM을 사용한 합성 과정의 비용 효율성을 개선할 필요가 있다.
실무 활용
터미널 환경에서 복잡한 작업을 수행해야 하는 AI 에이전트의 성능을 높이기 위한 고품질 학습 데이터 생성 도구로 활용 가능하다.
- 시스템 관리 및 DevOps 자동화 에이전트의 시나리오 대응 능력 강화
- 소프트웨어 엔지니어링 도구의 복합 워크플로우 실행 성능 평가용 벤치마크 생성
- 특정 도메인(예: 오디오 편집, 3D 시뮬레이션) 특화 터미널 에이전트 학습 데이터 구축
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.