핵심 요약
자율형 GUI 에이전트가 확산됨에 따라 디지털 플랫폼의 봇 탐지 시스템과의 갈등이 심화되고 있다. 이 논문은 에이전트가 단순히 작업을 수행하는 것을 넘어, 인간과 구별할 수 없는 행동 특성을 갖추는 '인간화' 기술이 에이전트의 생존과 공존에 필수적임을 입증한다.
왜 중요한가
자율형 GUI 에이전트가 확산됨에 따라 디지털 플랫폼의 봇 탐지 시스템과의 갈등이 심화되고 있다. 이 논문은 에이전트가 단순히 작업을 수행하는 것을 넘어, 인간과 구별할 수 없는 행동 특성을 갖추는 '인간화' 기술이 에이전트의 생존과 공존에 필수적임을 입증한다.
관련 Figure

플랫폼의 수익 모델(광고 주의력)과 에이전트의 효율성 추구 사이의 갈등을 보여준다. 탐지기가 인간과 에이전트의 궤적 차이를 식별하는 과정을 MinMax 게임으로 정의하고, 인간화 전략을 통해 이를 극복하는 전체 프레임워크를 시각화한다.
플랫폼과 GUI 에이전트 사이의 대립 구도와 튜링 테스트 및 인간화 과정을 요약한 다이어그램이다.
핵심 기여
Turing Test on Screen 개념 도입
텍스트 대화 중심의 고전적 튜링 테스트를 모바일 화면의 터치 및 센서 데이터 기반 행동 분석으로 확장하여 에이전트의 인간다움을 평가하는 프레임워크를 정의했다.
고충실도 모바일 터치 역학 데이터셋 구축
다양한 연령대의 인간 사용자와 최신 LMM 기반 에이전트로부터 수집한 좌표, 속도, 가속도 등 24가지 통계적 특징을 포함하는 대규모 데이터셋을 공개했다.
Agent Humanization Benchmark(AHB) 수립
에이전트의 모방 능력(Imitability)과 작업 성공률(Utility) 사이의 트레이드오프를 정량적으로 평가할 수 있는 벤치마크와 탐지 지표를 제안했다.
데이터 기반 행동 매칭 기법 제안
단순한 노이즈 주입을 넘어 실제 인간의 궤적 데이터를 활용해 에이전트의 동작을 변환하는 History Matching 기법이 이론적 및 실험적으로 우수함을 증명했다.
핵심 아이디어 이해하기
기존의 GUI 에이전트는 LMM을 통해 화면을 이해하고 논리적인 명령을 내리는 데 집중해왔다. 하지만 실제 터치 이벤트를 발생시킬 때, 에이전트는 인간 특유의 생체 역학적 노이즈나 곡선 궤적 없이 완벽하게 직선적이고 일정한 속도로 움직이는 경향이 있다. 이러한 기계적인 규칙성은 탐지 알고리즘이 에이전트를 인간과 즉각적으로 구분해내는 결정적인 단서가 된다.
이 논문은 에이전트의 행동을 '논리적 액션 레이어'와 '물리적 이벤트 레이어'로 분리하여 접근한다. 논리적으로는 정확한 작업을 수행하되, 물리적으로는 인간의 터치 습관을 모방하도록 만드는 것이다. 이를 위해 실제 인간의 터치 데이터를 참조하여 에이전트의 직선 궤적을 인간의 곡선 궤적으로 매핑하거나, LMM의 추론 시간 때문에 발생하는 부자연스러운 지연 시간을 메우기 위해 의미 없는 미세 동작(Fake Action)을 삽입하는 방식을 사용한다.
결과적으로 에이전트는 탐지 시스템을 속일 수 있는 '인간다운' 겉모습을 갖추게 된다. 이는 단순한 시각적 모방이 아니라, 탐지기(Detector)와 에이전트(Agent) 사이의 MinMax 게임 이론을 바탕으로 행동 분포의 차이(Jensen-Shannon Divergence)를 최소화하는 수학적 원리에 기반한다.
관련 Figure

인간의 동작은 생체 역학적 특성으로 인해 완벽한 직선이 아닌 곡선 형태를 띠며, 시작과 끝 지점에서 속도 변화와 미세한 떨림이 관찰된다. 이는 에이전트의 기계적인 움직임과 대조되는 핵심적인 특징이다.
인간 사용자가 쇼핑 앱에서 수행한 스와이프 동작의 곡선 궤적을 보여준다.

인간과 달리 에이전트의 궤적은 수학적으로 완벽한 직선에 가깝다. 이러한 극단적인 선형성은 탐지 알고리즘이 에이전트를 식별하는 가장 쉬운 단서가 되며, 본 논문이 해결하고자 하는 핵심 문제이다.
일반적인 GUI 에이전트가 수행한 직선적인 스와이프 동작을 보여준다.
방법론
에이전트와 탐지기 사이의 상호작용을 MinMax 최적화 문제로 모델링한다. 탐지기 D는 인간과 에이전트의 행동 분포 차이를 극대화하여 분류 정확도를 높이려 하고, 에이전트 G는 작업 유틸리티를 유지하면서 이 차이를 최소화하는 방향으로 매개변수 Φ를 학습한다.
인간의 터치 데이터를 활용하는 History Matching 전략을 사용한다. 작업 벡터 v_task가 주어지면 데이터셋에서 유사한 거리와 방향을 가진 인간의 참조 궤적 T_ref를 샘플링한다. 이후 p' = s * R(θ) * (p - p_start) + P_start 식을 통해 아핀 변환을 수행한다. 여기서 s는 스케일링 인자, R(θ)는 회전 행렬이며, 이를 통해 실제 인간의 속도 프로필과 미세한 떨림(Micro-jitters)을 에이전트의 동작에 이식한다.
시간적 비일관성을 해결하기 위해 Fake Action 주입 기법을 적용한다. LMM의 긴 추론 대기 시간 동안 발생하는 유휴 상태를 가리기 위해 푸아송 프로세스(Poisson process, λ=0.9 Hz)에 따라 미세한 스크롤이나 호버링 같은 비기능적 입력을 생성한다. 이는 에이전트의 시간적 프로필을 인간과 유사한 연속적인 형태로 변환한다.
주요 결과
순수 LMM 기반 에이전트(RAW)는 XGBoost 및 SVM 탐지기에서 99% 이상의 정확도로 즉각 탐지되었다. 특히 직선 궤적의 선명도(maxDev)와 터치 지속 시간(Tap Duration)이 탐지에 가장 취약한 요소로 나타났다.
History Matching 기법을 적용했을 때, 탐지 정확도가 크게 하락했다. Social Media 클러스터에서 XGBoost 탐지 정확도는 1.0000에서 0.9450으로 감소했으며, 단순 노이즈 주입(B-spline)보다 일관되게 우수한 성능을 보였다. Fake Action 주입은 시간 간격 기반 탐지 규칙의 정확도를 무작위 수준인 0.52까지 낮추는 데 성공했다.
작업 성공률(Utility) 측면에서는 트레이드오프가 관찰되었다. 단순한 작업에서는 인간화 이후에도 성공률이 유지되거나 소폭 상승했으나, 복잡한 Trip Planning 작업에 Fake Action을 주입할 경우 논리적 흐름 방해로 인해 성공률이 0.75에서 0.15로 급락하는 현상이 발생했다.
관련 Figure

인간은 짧은 간격에 집중된 분포를 보이는 반면, 에이전트들은 모델에 따라 10초에서 80초까지 긴 지연 시간을 보인다. Fake Action 주입을 통해 이 분포를 인간과 유사하게 겹치도록 만드는 것이 목표이다.
인간과 다양한 에이전트들의 액션 간격(Action Interval) 분포를 비교한 그래프이다.

인간의 탭 지속 시간은 가우시안 분포를 따르지만, 에이전트는 0에 가까운 극도로 짧은 시간을 기록한다. Long Press 전략을 통해 에이전트의 탭 시간을 인간의 분포 범위 내로 조정하여 탐지를 회피한다.
인간과 에
기술 상세
아키텍처는 기존 LMM 에이전트 외부에 'External Wrapper'를 두는 구조를 채택하여 모델 불가지론적(Model-agnostic) 호환성을 확보했다. 이 래퍼는 LMM이 생성한 원시 액션을 수신하여 인간화 알고리즘을 거친 후 OS에 전달한다.
이론적으로 세 가지 정리를 증명했다. 정리 1은 탐지기의 성능 상한이 인간과 에이전트 분포 간의 Jensen-Shannon Divergence에 의해 결정됨을 보여준다. 정리 2는 변동성 주입(Variance Injection)이 이 발산을 엄격하게 감소시킴을 입증하며, 정리 3은 History Matching이 점진적으로 실제 인간 분포에 수렴하는 점근적 우월성을 가짐을 수학적으로 뒷받침한다.
특징 추출 과정에서 Kinematics(속도, 가속도), Geometry(경로 효율성, 곡률), Temporal Dynamics(지속 시간, 대기 시간) 등 24가지 통계적 피처를 정의했다. 정보 이득(Information Gain) 분석 결과, maxDev와 같은 기하학적 피처가 탐지에 가장 유의미한 정보를 제공함을 확인했다.
한계점
현재 연구는 터치 역학(MotionEvents)에 집중하고 있으며, 자이로스코프나 가속도계와 같은 물리적 센서 데이터(SensorEvents)의 인간화는 시스템 레벨의 API 개입이 필요하여 향후 과제로 남겨두었다. 또한, 무분별한 가짜 액션 주입이 에이전트의 논리적 작업 흐름을 방해하여 성공률을 떨어뜨리는 부작용이 존재한다.
실무 활용
이 연구는 플랫폼의 봇 차단 정책을 우회해야 하는 합법적인 AI 비서 서비스 개발에 직접적으로 활용될 수 있다. 특히 금융이나 소셜 미디어 앱처럼 보안 정책이 엄격한 환경에서 에이전트의 생존율을 높이는 데 기여한다.
- 보안 정책이 엄격한 모바일 뱅킹 앱 내에서의 자동화 에이전트 실행
- 인간과 유사한 행동 패턴을 요구하는 앱 서비스의 자동화 테스트 및 QA
- 플랫폼의 무분별한 봇 차단으로부터 사용자 대리 에이전트의 권리 보호
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.