Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

에이전트가 웹을 탐색하는 동안 남기는 UI 이벤트의 패턴과 타이밍이 모델 식별의 신호가 된다. 사이트 운영자는 이를 통해 어떤 foundation model이 작동하는지 추론할 수 있어, 모델 특정 Jailbreaks, 포이즈닝 콘텐츠 노출, 비용 증가 등의 공격 벡터가 열리게 된다. 본 연구는 로컬 자바스크립트 트래커를 이용해 14개 프런티어 모델과 4개 웹 환경에서 이러한 지문 신호가 강력히 작동함을 입증한다.

왜 중요한가

에이전트가 웹을 탐색하는 동안 남기는 UI 이벤트의 패턴과 타이밍이 모델 식별의 신호가 된다. 사이트 운영자는 이를 통해 어떤 foundation model이 작동하는지 추론할 수 있어, 모델 특정 Jailbreaks, 포이즈닝 콘텐츠 노출, 비용 증가 등의 공격 벡터가 열리게 된다. 본 연구는 로컬 자바스크립트 트래커를 이용해 14개 프런티어 모델과 4개 웹 환경에서 이러한 지문 신호가 강력히 작동함을 입증한다.

핵심 기여

UI 트레이스 기반 모델 식별

사용자의 UI 상호작용과 타이밍(IEI 등)으로부터 14개 프런티어 모델의 정체를 예측하는 분류기를 학습시키고, Macro F1가 최대 약 96%에 달함을 보여준다.

위협 모델 formalisation 및 방어 분석

Co-located, 수동적 adversary 설정에서 서버 측 메타데이터 없이도 모델 식별이 가능함을 수립하고, 타이밍 지연과 재학습에 대한 방어 한계를 분석한다.

자원과 해시/데이터 공개

에이전트 상호작용 트레이스의 labelled 코퍼스와 해스(Harness)를 공개하여 재현 가능성을 확보한다.

타이밍이 주 신호, 그러나 행동도 견고성 보유

타이밍 특성이 주요 신호이지만, 타이밍의 난독화(delays) 시에도 재학습을 통해 성능을 회복시키는 보강성을 확인한다.

도메인 간 일반화 및 설계 영향

단일 태스크 간 전이(strong transfer)가 약하고, 같은 웹사이트의 다양한 태스크를 풀링하면 강한 사이트-조건(identifier) 성능이 회복된다.

실용적 위험성과 방어 방향 제시

모델 식별이 악용되면 모델-특정 jailbreaks, 콘텐츠 전략화, 접근 제어의 남용 가능성이 커지므로 에이전트 인식 축을 보안 설계의 핵심으로 제시한다.

핵심 아이디어 이해하기

문제 정의: UI 이벤트 시퀀스와 간격(IEIs)으로 모델의 행태를 식별할 수 있는가를 다룬다. 2) 아이디어: 에이전트의 행동 tempo와 구조적 패턴이 모델 특이적이라는 가정 아래, IEI, 페이지 내비게이션 구조, 클릭 위치 등의 특징을 추출한다. 3) 핵심 발견: 타이밍이 주 신호지만, random delay에 의해 악화되더라도 delay에 적응한 재학습으로 성능 회복이 가능하다. 4) 의미: 같은 사이트에서 다양한 태스크의 traces를 함께 학습하면 사이트-특정 지문이 강화되며, 도메인 간 일반화는 한계가 있다. 5) 결과적 시사점: 공격 표면은 에이전트의 식별을 통해 모델별 맞춤 공격, 비용 관리, 접근 제어 등으로 확장된다.

방법론

데이터 및 해스그: 14개 모델(GPM, Qwen-VL, UI-TARS 등)과 4개 웹 환경(2WikiMultiHopQA, FRAMES, WebShop, DeepShop)에서 수집된 UI 이벤트를 포함한 세션 트레이스를 생성한다. 2) 특징 공학: IEI 기반의 글로벌 타이밍 동적, 네비게이션/클릭 구조, 페이지 전환 등의 41개 스칼라 특징을 추출한다. 3) 분류기: Random Forest, Lasso, Logistic Regression, XGBoost, LSTM 등 다섯 가지 분류기를 검토하고 최종으로 XGBoost를 주로 보고한다. 4) 평가 설정: Closed-set(모든 모델이 클래스)와 Open-set(알려지지 않은 모델 식별)에서 각각 Macro F1, AUROC를 사용한다. 5) 일반화 및 견고성: Delayed traces로의 재학습, 짧은 트레이스로도 식별 가능성, 테스트 시점 조기 식별(약 40% 관찰 후 성능 정점)을 평가한다. 6) 해시/허용치: 사이트-단위 해석은 다수의 태스크를 포함해 사이트-조건(identifier)로 강화되며, cross-site 전이는 약함.

주요 결과

주요 결과: 4개 데이터셋에서 XGBoost 기반 트레이스 분류기가 모델 식별을 달성하며, Macro F1이 대략 random baseline의 10배 수준이다. 예를 들어 Seed-2-lite은 2WikiMultiHopQA에서 96.1%, UI-TARS-1.5는 WebShop에서 92.1%에 달한다. Open-set AUROC은 대체로 0.60 전후로 높게 나타나며 Seed-2-lite는 일부 데이터셋에서 0.47~0.58로 낮다. 타이밍 기반 특징(IeI std, Time to 1st action 등)이 초기 신호로 강하고, Delays를 주입하더라도 재학습 시 성능이 회복된다. 학습 데이터의 비율을 1/3 미만으로 사용해도 거의 최적에 근접하며, 테스트 시점에서 전체 트레이스의 약 40%를 관찰해도 식별이 가능하다. 다태스크 학습의 경우 같은 웹사이트에서 태스크를 다르게 구성해도 사이트-conditioned 식별이 강력하게 작동한다. Cross-task transfer는 약하고, pooling으로 site-level 성능이 크게 개선된다.

기술 상세

아키텍처는 LLM 기반 에이전트(LLM agent)와 브라우저 해브(Harness)로 구성되며 injected tracker가 DOM 이벤트를 수집하고, 이를 XP 기반의 XGBoost/LSTM으로 분류한다. 특징으로는 41개의 수치형 Feature가 추출되며, 이벤트 시퀀스와 타이밍 정보를 이용해 τ = {(st, ut, ∆tt)} 포맷의 트레이스를 생성한다. 위협 모델은 passive-co-located adversary로, 서버 측 로그나 네트워크 레이어의 정보 없이도 UI 이벤트의 시퀀스와 타이밍으로 모델 정체를 추정한다. 실험 설정은 14개 모델군과 4개 데이터셋으로 구성되며, closed-set/open-set 평가를 병행한다. 타이밍 기반 신호가 주 신호이며, Delay 도입 시 재학습으로 견고성이 회복되지만, 타이밍 의존성을 완전히 제거하는 것은 어렵다. 해석 도구로 SHAP 값을 사용해 주요 기여 특징으로 IEI std, time to first action, 구조적 키 비율 etc를 확인하였다.

실무 활용

에이전트의 모델 식별은 악용 및 방어 양측에서 중요한 신호로 작용한다. 공격자는 모델-특정 jailbreaker나 최적화 기법을 표적으로 삼아 자원을 소비하거나 맞춤형 콘텐츠를 제공할 수 있다.

모델-특정 jailbreaks를 목표로 한 콘텐츠 공격 및 입력 최적화
모델별 요금/자원 관리 및 비용-최적화를 위한 정책 적용
에이전트 식별 기반 검출 및 차단/제한(화이트리스트/블랙리스트) 정책
사이트 운영자가 에이전트 유형에 따라 콘텐츠를 차별 공급하는 모델-조건화(Content conditioning) 위험 관리
허용된 모델 목록 업데이트를 위한 신속 enrolled 모델 프로비저닝

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM-based agentspassive JavaScript trackermodel identificationclassifier trainingagent actionsinteraction timingsrandomised timing delaysopen-set vs closed-set fingerprintingbrowser fingerprintingMidscene.js