왜 중요한가
기존의 AI 에이전트 안전 시스템은 개별 행동의 위험성만 판단하여, 여러 단계에 걸쳐 서서히 진행되는 지능형 공격을 막지 못하는 한계가 있었다. 이 논문은 추가적인 모델 학습 없이도 에이전트의 전체 행동 흐름을 기억하고 분석하여, 정상적인 행동처럼 위장한 데이터 유출이나 권한 상승 공격을 실시간으로 차단하는 혁신적인 방법을 제시한다.
핵심 기여
결정론적 시간적 권한 부여 메커니즘(SRM) 개발
별도의 학습이나 확률적 추론 없이 에이전트의 세션 전체 궤적을 분석하여 위험을 탐지하는 가볍고 결정론적인 모듈을 설계했다.
세션 수준의 시맨틱 드리프트 수학적 정식화
기준선 차감과 지수 이동 평균을 결합하여 에이전트의 역할별 특성을 반영하면서도 비정상적인 위험 신호의 누적을 정확히 계산하는 수식을 제안했다.
공간적 및 시간적 권한 일관성의 개념적 분리
개별 행동의 적합성(공간적)과 전체 행동 시퀀스의 일관성(시간적)을 독립적인 안전 차원으로 정의하여 에이전트 보안의 새로운 프레임워크를 구축했다.
핵심 아이디어 이해하기
기존의 안전 게이트는 각 행동을 독립적으로 평가하는 '상태 비저장(Stateless)' 방식이다. 이는 임베딩 공간에서 개별 행동 벡터가 허용 범위를 벗어나는지 확인하는 데는 효과적이지만, '데이터 조회 → 로컬 저장 → 외부 전송'과 같이 각 단계는 정상처럼 보이지만 합쳐졌을 때 위험한 '분산형 공격'에는 무력하다.
SRM은 이를 해결하기 위해 '세션 행동 중심점(Semantic Centroid)' 개념을 도입한다. 에이전트가 수행한 이전 행동들의 평균적인 위치를 기억하고, 현재 행동이 이 중심점에서 얼마나 멀어지는지(Cosine Distance)를 계산한다. 이는 딥러닝의 임베딩 공간 내에서의 거리 개념을 활용하여 행동의 일관성을 측정하는 원리다.
또한 SRM은 '지수 이동 평균(EMA)'을 사용하여 과거의 위험 신호를 누적한다. 단순히 합산하는 것이 아니라 시간이 지남에 따라 과거 신호의 가중치를 줄임으로써, 최근의 급격한 행동 변화나 지속적인 위험 징후를 더 민감하게 포착한다. 이를 통해 개별 행동은 안전 기준을 통과하더라도 전체 궤적이 위험하다고 판단되면 즉시 차단할 수 있다.
방법론
SRM은 기존 ILION 게이트의 출력을 입력으로 받는 추가 레이어로 작동한다. 에이전트의 행동은 21차원의 시맨틱 벡터로 표현되며, SRM은 이 벡터를 사용하여 세션별 행동 프로필을 실시간으로 업데이트한다.
핵심 메커니즘은 세 단계로 구성된다. 먼저 세션 초기에 '기준선 차감'을 위해 처음 K번(보통 3번)의 행동에서 발생하는 기본 위험 수치를 측정한다. [초기 K번의 위험 점수 입력 → 지수 이동 평균 계산 → 기준선 b_K 결정] 과정을 통해 각 역할에 맞는 맞춤형 위험 임계값을 설정한다.
이후 각 턴 t에서 현재 행동 벡터 v_t와 이전 중심점 c_{t-1} 사이의 코사인 거리를 계산하여 드리프트 신호 Δ_t를 얻는다. [v_t와 c_{t-1} 입력 → 1 - cos(v_t, c_{t-1}) 연산 → Δ_t 출력] 이 값은 현재 행동이 세션의 흐름에서 얼마나 이탈했는지를 나타낸다.
최종적으로 드리프트 신호와 기준선이 제거된 게이트 위험 점수를 결합하여 누적 위험 R_t를 업데이트한다. [결합된 위험 신호 r_t 입력 → R_t = λ·R_{t-1} + (1-λ)·r_t 연산 → 누적 위험 R_t 출력] R_t가 설정된 임계값 τ를 초과하면 해당 세션은 즉시 차단된다.
주요 결과
80개의 세션으로 구성된 ILION-SRM-Bench v1에서 평가를 진행했다. 공격 시나리오는 저속 데이터 유출, 점진적 권한 상승, 컴플라이언스 이탈을 포함했다. 실험 결과 기존의 상태 비저장 ILION 시스템은 5%의 오탐율(FPR)과 0.9756의 F1 스코어를 기록한 반면, SRM을 결합한 시스템은 오탐율 0%와 F1 스코어 1.0000을 달성했다.
탐지율(Recall)은 두 시스템 모두 100%를 유지했다. 효율성 측면에서 SRM의 추가 오버헤드는 턴당 평균 239.9마이크로초로 측정되었다. 이는 실시간 사전 실행 보안 검사에 적합한 수준이며 CPU 환경에서도 충분히 작동 가능함을 입증했다.
세션 리스크 궤적 분석 결과 정상 세션은 웜업 단계 이후 위험도가 0에 가깝게 유지되는 반면, 공격 세션은 4번째 턴부터 위험도가 점진적으로 상승하여 임계값을 명확히 초과하는 양상을 보였다.
실무 활용
기업용 AI 에이전트 워크플로우에서 데이터 유출이나 권한 남용을 실시간으로 방지하는 보안 계층으로 즉시 도입 가능하다.
- 금융 에이전트의 비정상적인 대량 데이터 조회 및 외부 전송 차단
- IT 관리 에이전트의 단계적인 권한 상승 시도 감지
- 고객 지원 에이전트가 규정된 절차를 무시하고 거래를 승인하려는 시도 방지
기술 상세
SRM 아키텍처는 결정론적 설계를 원칙으로 한다. 모든 계산은 폐쇄형 대수 연산으로 이루어지며, 이는 동일한 입력 시퀀스에 대해 항상 동일한 출력을 보장하여 보안 감사에 유리하다. 시맨틱 벡터 표현은 키워드 가중치 기반의 기하학적 투영을 통해 생성된 21차원 벡터를 사용한다.
기준선 차감 메커니즘은 SRM의 핵심 차별점이다. 보안 분석가와 같이 원래 위험해 보이는 단어를 자주 사용하는 역할의 경우, 초기 웜업 기간 동안 해당 역할의 평상시 위험도를 학습하여 오탐을 방지한다. 이는 절대적 위험 수치가 아닌 평소보다 얼마나 더 위험해졌는가를 측정하게 한다.
누적 위험 R_t의 업데이트 식은 R_t = λ · R_{t-1} + (1 - λ) · r_t 형태를 띠며, 여기서 λ는 과거 위험의 감쇠율을 조절한다. 실험에서는 λ=0.75를 사용하여 과거의 맥락을 유지하면서도 최신 행동에 적절한 가중치를 부여했다.
SRM은 기존 게이트의 구성을 변경하지 않고도 추가할 수 있는 모듈형 구조를 가진다. 세션 컨텍스트를 사용할 수 없는 경우(예: 단발성 API 호출)에는 자동으로 비활성화되어 기존 게이트의 동작으로 복구되는 유연한 설계를 갖추고 있다.
한계점
벤치마크가 ILION 시맨틱 벡터 공간에 최적화된 구조화된 액션 구문을 사용했으므로, 자연어 기반의 에이전트 행동 설명에 대해서는 임베딩 특성에 따라 성능이 달라질 수 있다. 또한 현재 구현에서는 코사인 거리 신호가 희소 벡터 공간에서 변별력이 낮아 드리프트 가중치를 0으로 설정했는데, 이는 고차원 연속 임베딩을 사용할 때 개선이 필요한 부분이다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.