AI 에이전트 스킬 보안 검증을 위한 듀얼 LLM 파이프라인

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

AI 에이전트 스킬의 프롬프트 인젝션 및 악성 코드 실행을 방지하기 위해 Claude와 Codex를 활용한 듀얼 LLM 검증 파이프라인을 구축함.

AI 에이전트 스킬 설치 시 발생하는 프롬프트 인젝션 및 악성 코드 실행 위험을 방지하기 위해, LLM 기반의 자동화된 보안 검증 파이프라인인 OpenClaw를 설계하고 테스트 결과를 공유했다.

보안 문제 제기: AI 에이전트 스킬이 시스템 프롬프트에 직접 주입되는 구조적 취약점인 프롬프트 인젝션과 쉘 스크립트 실행 위험을 지적함.

검증 파이프라인 설계: 격리 폴더에서 시작하여 두 개의 LLM(Claude, Codex)이 체크리스트 기반의 폐쇄적 검증과 개방적 분석을 수행하는 다단계 프로세스를 구축함.

성능 테스트 결과: 16개의 합성 스킬을 대상으로 테스트한 결과, 15개의 악성 스킬을 모두 탐지했으며 오탐지율은 0%를 기록함.

한계점 인정: 런타임 행동 분석의 부재와 검증 모델 자체의 취약성 가능성을 언급하며, 지속적인 카탈로그 업데이트의 필요성을 강조함.

yaml

skill: suspicious-skill
sha256: 3b7f...c9a2
claude: PASS
codex: WARN
human: APPROVED
date: 2024-05-19

스킬의 보안 검증 상태와 승인 기록을 담은 락파일 예시