핵심 요약
LLM 에이전트가 사용하는 스킬들이 단순 텍스트 설명에 의존하고 있어 기계가 이를 정확히 이해하고 관리하기 어렵다는 문제를 해결한다. 스킬의 호출 인터페이스, 실행 단계, 논리적 자원 사용을 구조화된 SSL 표현법으로 분리하여 에이전트의 스킬 검색 및 위험 평가 효율성을 대폭 높였다.
왜 중요한가
LLM 에이전트가 사용하는 스킬들이 단순 텍스트 설명에 의존하고 있어 기계가 이를 정확히 이해하고 관리하기 어렵다는 문제를 해결한다. 스킬의 호출 인터페이스, 실행 단계, 논리적 자원 사용을 구조화된 SSL 표현법으로 분리하여 에이전트의 스킬 검색 및 위험 평가 효율성을 대폭 높였다.
핵심 기여
SSL(Scheduling-Structural-Logical) 표현법 제안
에이전트 스킬을 스케줄링(호출 인터페이스), 구조(실행 단계), 논리(원자적 행동 및 자원 증거)의 세 가지 계층으로 분리하여 구조화하는 새로운 표현 프레임워크를 도입했다.
LLM 기반 SSL Normalizer 파이프라인 구축
비정형 SKILL.md 파일에서 정형화된 SSL JSON 그래프를 추출하기 위해 4단계(추출, 분해, 확장, 검증)로 구성된 LLM 기반 정규화 파이프라인을 설계했다.
Skill Discovery 및 Risk Assessment 벤치마크 성능 입증
6,184개의 스킬 코퍼스를 활용한 실험에서 SSL 기반 표현이 텍스트 전용 베이스라인 대비 Skill Discovery(MRR 0.573 → 0.707)와 Risk Assessment(F1 0.744 → 0.787) 성능을 유의미하게 개선했다.
핵심 아이디어 이해하기
기존 LLM 에이전트 시스템에서 스킬은 주로 SKILL.md와 같은 긴 텍스트 문서로 관리된다. 이는 사람이 읽기에는 좋으나, LLM이 수천 개의 스킬 중 적절한 것을 선택하거나 잠재적 보안 위험을 판단할 때 텍스트 뭉치 속에서 필요한 정보를 매번 다시 추론해야 하는 연산 비효율성과 모호성을 초래한다.
이 논문은 Schank와 Abelson의 고전적 언어 지식 표현 이론을 현대적 AI 에이전트에 적용했다. 구체적으로는 목표 지향적 맥락을 위한 Memory Organization Packets, 정형화된 활동 순서를 위한 Script Theory, 그리고 의미론적 원자 행동 분해를 위한 Conceptual Dependency 개념을 차용하여 스킬의 '겉면(인터페이스)'과 '내부(실행 흐름)', '바닥(자원 사용)'을 명확히 구분했다.
이렇게 계층화된 SSL 표현은 LLM이 스킬의 전체 텍스트를 읽지 않고도 필요한 계층의 정보만 선택적으로 활용할 수 있게 한다. 예를 들어 스킬 검색 시에는 스케줄링 계층을, 보안 검토 시에는 논리 계층의 자원 접근 기록을 우선적으로 참조함으로써 처리 속도와 정확도를 동시에 확보한다.
방법론
SSL 표현법은 세 가지 핵심 계층으로 구성된다. 첫째, Scheduling 계층은 스킬의 이름, 목표, 입력/출력 시그니처 등 호출에 필요한 인터페이스 정보를 담는다. 둘째, Structural 계층은 스킬의 실행 과정을 '준비(Prepare)', '획득(Acquire)', '행동(Act)' 등 정해진 씬(Scene) 단위의 그래프로 표현한다. 셋째, Logical 계층은 각 씬 내부에서 발생하는 READ, WRITE, CALL_TOOL 등 원자적 행동과 자원 사용 범위를 기록한다.
정규화 파이프라인은 LLM을 활용하여 비정형 문서를 SSL 스키마로 변환한다. [비정형 텍스트 입력] → [4단계 프롬프트 처리(추출, 분해, 확장, 검증)] → [정형 JSON 그래프 출력] 과정을 거친다. 이 과정에서 LLM은 사전에 정의된 폐쇄형 어휘집(Closed Vocabularies)만을 사용하도록 제한되어, 서로 다른 스킬 간에도 동일한 기준의 비교가 가능하도록 보장한다.
검증 단계에서는 하드 유효성 검사(Hard Validation)를 수행한다. [생성된 JSON 구조 입력] → [식별자 고유성 및 Enum 값 일치 여부 확인] → [실패 시 재시도 연산] 과정을 통해 데이터의 무결성을 확보한다. 이는 모델이 존재하지 않는 실행 단계를 지어내는 환각 현상을 방지하고 소스 문서에 근거한 정보만을 남기도록 강제한다.
관련 Figure

SKILL.md와 같은 비정형 텍스트가 LLM Normalizer를 거쳐 어떻게 구조화된 데이터로 변환되는지 시각화한다. 각 계층이 담당하는 정보(인터페이스, 실행 단계, 원자적 행동)를 명확히 구분하여 SSL의 핵심 아키텍처를 설명한다.
텍스트 기반 스킬 아티팩트가 SSL의 3단계 계층(Scheduling, Structural, Logical)으로 변환되는 과정을 보여주는 다이어그램이다.
주요 결과
Skill Discovery 실험에서 SSL-Rich 표현을 사용했을 때 MRR(Mean Reciprocal Rank)이 0.707을 기록하여, 단순 텍스트 설명만 사용한 베이스라인(0.573) 대비 약 23%의 성능 향상을 보였다. 이는 구조화된 필드들이 검색 시 노이즈를 줄이고 핵심 신호를 강화했음을 의미한다.
Risk Assessment 실험에서는 데이터 유출, 권한 상승 등 6가지 위험 차원에 대해 평가했다. Full SKILL.md와 SSL을 결합하여 사용했을 때 Macro F1 점수가 0.787로 나타나, 텍스트 전용(0.744)보다 높은 탐지 정확도를 보였다. 특히 파괴적 행동(Destructive Behaviors)이나 자원 남용(Resource Abuse) 등 명시적인 행동 분석이 필요한 항목에서 SSL의 기여도가 높았다.
Ablation Study 결과, 단순히 텍스트를 요약하는 것보다 SSL의 계층 구조를 유지하는 것이 성능에 결정적이었다. 특히 검색 작업에서는 스케줄링 정보가, 위험 평가 작업에서는 논리 계층의 자원 접근 정보가 각각 핵심적인 역할을 수행함이 확인됐다.
기술 상세
SSL 아키텍처는 비정형 스킬 문서를 정형화된 중간 표현(Intermediate Representation)으로 변환하는 데 중점을 둔다. Scheduling 계층은 r_sch로 정의되며, Structural 계층은 G_str(씬 단위 유향 그래프), Logical 계층은 G_log(원자 행동 단위 유향 그래프)로 모델링된다. 이들은 R_cont(포함 관계)와 R_entry(진입점)라는 보조 관계를 통해 하나의 통합된 지식 그래프로 연결된다.
이 연구의 기술적 차별점은 'Grounded Output' 원칙에 있다. Normalizer는 소스 문서에 명시되지 않은 정보를 추론하거나 보충하는 것을 엄격히 금지당하며, 오직 문서에 존재하는 증거만을 정해진 어휘집(Scene types, Logical primitives 등)에 매핑한다. 이는 시스템의 신뢰성을 높이고 하위 작업에서 발생할 수 있는 오류 전파를 최소화한다.
한계점
정적 문서 분석에 의존하므로 런타임에 동적으로 생성되는 명령어나 다운로드되는 페이로드와 같은 동적 행동은 파악할 수 없다. 또한 LLM 기반 Normalizer의 성능에 의존하므로, 소스 문서가 모호할 경우 잘못된 Enum 매핑이 발생할 가능성이 존재한다.
실무 활용
대규모 에이전트 스킬 라이브러리를 운영하는 기업이나 보안이 중요한 엔터프라이즈 에이전트 시스템에서 즉시 활용 가능하다.
- 수천 개의 API/도구가 포함된 에이전트 허브에서 사용자 요청에 맞는 최적의 스킬 검색 및 라우팅
- 제3자(Third-party)가 개발한 에이전트 스킬의 자원 접근 권한 및 보안 위험 자동 사전 검토
- 복잡한 멀티스텝 에이전트 워크플로우의 실행 단계별 모니터링 및 체크포인트 설정
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.