TL;DR
에이전트가 웹을 탐색하는 동안 남기는 UI 이벤트의 패턴과 타이밍이 모델 식별의 신호가 된다. 사이트 운영자는 이를 통해 어떤 foundation model이 작동하는지 추론할 수 있어, 모델 특정 Jailbreaks, 포이즈닝 콘텐츠 노출, 비용 증가 등의 공격 벡터가 열리게 된다. 본 연구는 로컬 자바스크립트 트래커를 이용해 14개 프런티어 모델과 4개 웹 환경에서 이러한 지문 신호가 강력히 작동함을 입증한다.
왜 중요한가
에이전트가 웹을 탐색하는 동안 남기는 UI 이벤트의 패턴과 타이밍이 모델 식별의 신호가 된다. 사이트 운영자는 이를 통해 어떤 foundation model이 작동하는지 추론할 수 있어, 모델 특정 Jailbreaks, 포이즈닝 콘텐츠 노출, 비용 증가 등의 공격 벡터가 열리게 된다. 본 연구는 로컬 자바스크립트 트래커를 이용해 14개 프런티어 모델과 4개 웹 환경에서 이러한 지문 신호가 강력히 작동함을 입증한다.
핵심 기여
UI 트레이스 기반 모델 식별
사용자의 UI 상호작용과 타이밍(IEI 등)으로부터 14개 프런티어 모델의 정체를 예측하는 분류기를 학습시키고, Macro F1가 최대 약 96%에 달함을 보여준다.
위협 모델 formalisation 및 방어 분석
Co-located, 수동적 adversary 설정에서 서버 측 메타데이터 없이도 모델 식별이 가능함을 수립하고, 타이밍 지연과 재학습에 대한 방어 한계를 분석한다.
자원과 해시/데이터 공개
에이전트 상호작용 트레이스의 labelled 코퍼스와 해스(Harness)를 공개하여 재현 가능성을 확보한다.
타이밍이 주 신호, 그러나 행동도 견고성 보유
타이밍 특성이 주요 신호이지만, 타이밍의 난독화(delays) 시에도 재학습을 통해 성능을 회복시키는 보강성을 확인한다.
도메인 간 일반화 및 설계 영향
단일 태스크 간 전이(strong transfer)가 약하고, 같은 웹사이트의 다양한 태스크를 풀링하면 강한 사이트-조건(identifier) 성능이 회복된다.
실용적 위험성과 방어 방향 제시
모델 식별이 악용되면 모델-특정 jailbreaks, 콘텐츠 전략화, 접근 제어의 남용 가능성이 커지므로 에이전트 인식 축을 보안 설계의 핵심으로 제시한다.
핵심 아이디어 이해하기
- 문제 정의: UI 이벤트 시퀀스와 간격(IEIs)으로 모델의 행태를 식별할 수 있는가를 다룬다. 2) 아이디어: 에이전트의 행동 tempo와 구조적 패턴이 모델 특이적이라는 가정 아래, IEI, 페이지 내비게이션 구조, 클릭 위치 등의 특징을 추출한다. 3) 핵심 발견: 타이밍이 주 신호지만, random delay에 의해 악화되더라도 delay에 적응한 재학습으로 성능 회복이 가능하다. 4) 의미: 같은 사이트에서 다양한 태스크의 traces를 함께 학습하면 사이트-특정 지문이 강화되며, 도메인 간 일반화는 한계가 있다. 5) 결과적 시사점: 공격 표면은 에이전트의 식별을 통해 모델별 맞춤 공격, 비용 관리, 접근 제어 등으로 확장된다.
관련 Figure

작업 정확도와 identifiability 간에 뚜렷한 상관관계가 없음을 보여준다. 이는 행태적 지문이 작업 성능과 무관하게 모델을 구분하는 신호임을 시사한다.
Figure 7: Task 능력과 식별 가능성의 관계를 탐색한 산점도

IEI std, Time to First action 등 타이밍 특징이 주요 지표로 등장하고, retraining 시 action 중심 특징이 중요도로 남는 것을 보여준다.
Figure 8: SHAP 기반 피처 중요도(타임링 vs 액션 특징).
방법론
- 데이터 및 해스그: 14개 모델(GPM, Qwen-VL, UI-TARS 등)과 4개 웹 환경(2WikiMultiHopQA, FRAMES, WebShop, DeepShop)에서 수집된 UI 이벤트를 포함한 세션 트레이스를 생성한다. 2) 특징 공학: IEI 기반의 글로벌 타이밍 동적, 네비게이션/클릭 구조, 페이지 전환 등의 41개 스칼라 특징을 추출한다. 3) 분류기: Random Forest, Lasso, Logistic Regression, XGBoost, LSTM 등 다섯 가지 분류기를 검토하고 최종으로 XGBoost를 주로 보고한다. 4) 평가 설정: Closed-set(모든 모델이 클래스)와 Open-set(알려지지 않은 모델 식별)에서 각각 Macro F1, AUROC를 사용한다. 5) 일반화 및 견고성: Delayed traces로의 재학습, 짧은 트레이스로도 식별 가능성, 테스트 시점 조기 식별(약 40% 관찰 후 성능 정점)을 평가한다. 6) 해시/허용치: 사이트-단위 해석은 다수의 태스크를 포함해 사이트-조건(identifier)로 강화되며, cross-site 전이는 약함.
관련 Figure

본 도표는 트레이스 수집의 구성과 위협 모델의 흐름을 직관적으로 보여주며, 본 연구의 핵심 아이디어(행동 신호를 통한 모델 식별)를 시각적으로 보강한다.
Figure 1: 공격 모델과 위협 모델의 구성도. LLM 에이전트가 행동하고 injected tracker가 UI 이벤트를 로그하며, 분류기가 모델 정체를 예측한다.

에이전트의 클릭/스크롤/키 입력 타이밍과 inter-event intervals를 시각화해 분류기가 모델을 구분하는 데에 사용하는 신호를 직관적으로 제시한다.
Figure 2: 에이전트의 액션 타임라인과 IEI 기반 특징의 예시.
주요 결과
주요 결과: 4개 데이터셋에서 XGBoost 기반 트레이스 분류기가 모델 식별을 달성하며, Macro F1이 대략 random baseline의 10배 수준이다. 예를 들어 Seed-2-lite은 2WikiMultiHopQA에서 96.1%, UI-TARS-1.5는 WebShop에서 92.1%에 달한다. Open-set AUROC은 대체로 0.60 전후로 높게 나타나며 Seed-2-lite는 일부 데이터셋에서 0.47~0.58로 낮다. 타이밍 기반 특징(IeI std, Time to 1st action 등)이 초기 신호로 강하고, Delays를 주입하더라도 재학습 시 성능이 회복된다. 학습 데이터의 비율을 1/3 미만으로 사용해도 거의 최적에 근접하며, 테스트 시점에서 전체 트레이스의 약 40%를 관찰해도 식별이 가능하다. 다태스크 학습의 경우 같은 웹사이트에서 태스크를 다르게 구성해도 사이트-conditioned 식별이 강력하게 작동한다. Cross-task transfer는 약하고, pooling으로 site-level 성능이 크게 개선된다.
관련 Figure

다양한 모델별 F1 점수를 통해 트레이스가 모델 구별에 얼마나 일관된 신호를 제공하는지 수치적으로 보여준다.
Figure 3: Closed-set Attribution — Per-model F1 (%).

미지의 모델 탐지 성능을 AUROC로 제시하며, 대부분 에이전트에서 0.60 수준 이상이지만 Seed-2-lite는 일부 데이터셋에서 낮은 성능을 보인다.
Figure 4: Open-set Unknown-Agent Detection — AUROC

타이밍 공격을 도입하면 unadapted classifier의 F1이 하락하지만, delayed traces로 재학습하면 재현율이 회복되어 타이밍 신호의 취약성이 제한적으로만 우회당함을 보인다.
Figure 5: Timing 공격의 효과와 재학습에 따른 회복

트레이닝 데이터의 비율이 약 1/3 이내일 때 이미 최고 성능에 근접하고, 테스트 시점에서 첫 40%의 이벤트만으로도 충분히 높은 정확도로 식별 가능하다는 것을 시각화한다.
Figure 6: Training 효율성 및 조기 식별
기술 상세
아키텍처는 LLM 기반 에이전트(LLM agent)와 브라우저 해브(Harness)로 구성되며 injected tracker가 DOM 이벤트를 수집하고, 이를 XP 기반의 XGBoost/LSTM으로 분류한다. 특징으로는 41개의 수치형 Feature가 추출되며, 이벤트 시퀀스와 타이밍 정보를 이용해 τ = {(st, ut, ∆tt)} 포맷의 트레이스를 생성한다. 위협 모델은 passive-co-located adversary로, 서버 측 로그나 네트워크 레이어의 정보 없이도 UI 이벤트의 시퀀스와 타이밍으로 모델 정체를 추정한다. 실험 설정은 14개 모델군과 4개 데이터셋으로 구성되며, closed-set/open-set 평가를 병행한다. 타이밍 기반 신호가 주 신호이며, Delay 도입 시 재학습으로 견고성이 회복되지만, 타이밍 의존성을 완전히 제거하는 것은 어렵다. 해석 도구로 SHAP 값을 사용해 주요 기여 특징으로 IEI std, time to first action, 구조적 키 비율 etc를 확인하였다.
실무 활용
에이전트의 모델 식별은 악용 및 방어 양측에서 중요한 신호로 작용한다. 공격자는 모델-특정 jailbreaker나 최적화 기법을 표적으로 삼아 자원을 소비하거나 맞춤형 콘텐츠를 제공할 수 있다.
- 모델-특정 jailbreaks를 목표로 한 콘텐츠 공격 및 입력 최적화
- 모델별 요금/자원 관리 및 비용-최적화를 위한 정책 적용
- 에이전트 식별 기반 검출 및 차단/제한(화이트리스트/블랙리스트) 정책
- 사이트 운영자가 에이전트 유형에 따라 콘텐츠를 차별 공급하는 모델-조건화(Content conditioning) 위험 관리
- 허용된 모델 목록 업데이트를 위한 신속 enrolled 모델 프로비저닝
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.