핵심 요약
기존 모바일 GUI 에이전트는 단순히 작업 성공률에만 집중하여 사용자의 개인정보 보호 성향을 간과하는 문제가 있었다. 이 논문은 사용자의 페르소나에 따라 앱 조작 경로가 달라져야 함을 정의하고, 이를 효과적으로 학습할 수 있는 TIPO 기법을 제안하여 개인화된 AI 비서 구현의 새로운 방향을 제시한다.
왜 중요한가
기존 모바일 GUI 에이전트는 단순히 작업 성공률에만 집중하여 사용자의 개인정보 보호 성향을 간과하는 문제가 있었다. 이 논문은 사용자의 페르소나에 따라 앱 조작 경로가 달라져야 함을 정의하고, 이를 효과적으로 학습할 수 있는 TIPO 기법을 제안하여 개인화된 AI 비서 구현의 새로운 방향을 제시한다.
관련 Figure

사용자의 페르소나(Privacy-first vs Utility-first)가 에이전트의 권한 승인, 자동 완성 사용 여부 등 구체적인 행동 선택에 어떻게 영향을 주어 서로 다른 궤적을 만드는지 시각적으로 보여준다.
동일한 작업 목표에 대해 개인정보 보호 성향에 따라 달라지는 에이전트의 실행 경로 분기 다이어그램
핵심 기여
모바일 GUI 에이전트 개인화 정의
단순한 작업 완료를 넘어 동일한 목표 하에서도 사용자의 페르소나에 일치하는 실행 궤적을 선택하는 작업으로 에이전트 개인화를 정의했다.
Privacy Preference 데이터셋 구축
개인정보 보호 우선(Privacy-first)과 효율성 우선(Utility-first)이라는 두 가지 페르소나에 따라 구조와 길이가 다른 151개의 작업 목표와 302개의 실행 궤적 쌍을 포함하는 데이터셋을 구축했다.
TIPO(Trajectory Induced Preference Optimization) 제안
가변 길이의 구조적으로 상이한 궤적 데이터에서 선호도를 안정적으로 학습하기 위해 선호도 강도 가중치와 패딩 게이팅 메커니즘을 도입한 최적화 기법을 개발했다.
핵심 아이디어 이해하기
기존의 선호도 최적화 방식인 DPO는 두 응답의 길이가 비슷하고 구조가 균일하다는 가정하에 모든 토큰에 동일한 가중치를 부여한다. 하지만 모바일 GUI 조작의 경우, 개인정보를 중시하는 사용자는 보안 설정을 확인하는 추가 단계를 거치는 반면, 효율을 중시하는 사용자는 이를 건너뛰므로 두 실행 경로의 길이와 구조가 근본적으로 달라진다.
이러한 구조적 불일치 상황에서 표준 DPO를 적용하면, 단순히 길이를 맞추기 위해 삽입된 의미 없는 패딩(Padding) 토큰들이 학습 신호를 오염시키거나, 정작 중요한 개인정보 관련 결정 단계가 수많은 일반 조작 단계에 묻혀버리는 문제가 발생한다. 이는 모델이 사용자의 진정한 의도보다는 데이터의 형식적 특성에만 맞추게 되는 결과를 초래한다.
TIPO는 이를 해결하기 위해 각 단계가 페르소나를 구분하는 데 얼마나 중요한지를 계산하여 가중치를 차등 부여한다. 또한 패딩으로 인해 발생하는 노이즈를 게이팅 메커니즘으로 차단함으로써, 모델이 긴 조작 과정 중에서도 사용자의 성향이 드러나는 결정적인 순간에 집중하여 학습하도록 유도한다.
관련 Figure

효율 우선 사용자는 일반 로그인을 선택하는 반면, 개인정보 우선 사용자는 시크릿 모드(Incognito)를 선택하며 이 과정에서 발생하는 단계 차이와 패딩 토큰의 필요성을 설명한다.
크롬 브라우저에서 비디오 링크를 여는 작업 시 발생하는 실제 궤적 분기 사례
방법론
TIPO는 궤적 수준의 비교를 단계별(Step-wise) 선호도 신호로 분해하여 처리한다. 먼저 가변 길이의 두 궤적을 비교 가능하도록 no_action 토큰을 삽입하여 길이를 정렬한 후, 각 단계에서의 로그 확률 차이를 기반으로 손실 함수를 계산한다.
선호도 강도 가중치(Preference-intensity weighting)는 각 단계의 행동이 페르소나 변별력을 얼마나 가지는지 수치화한다. [두 궤적의 해당 단계 행동 점수 차이를 입력으로] → [최대 점수 차이로 나누어 정규화하고 지수 감도를 적용해] → [0에서 1 사이의 가중치 alpha를 얻고] → [이 값이 클수록 해당 단계의 학습 반영 비중을 높인다].
패딩 게이팅(Padding gating)은 정렬 과정에서 발생한 가짜 데이터를 걸러낸다. [선택된 궤적의 현재 단계가 no_action인지 확인하여] → [0 또는 1의 게이트 값 m을 할당하고] → [이를 손실 함수에 곱해] → [패딩 토큰에서 발생하는 기울기(Gradient)가 모델 업데이트에 영향을 주지 않도록 차단한다].
관련 Figure

TIPO가 패딩 게이팅을 통해 노이즈를 억제하고, 선호도 강도 가중치를 통해 페르소나에 중요한 단계를 강조하여 학습하는 메커니즘을 수식과 함께 보여준다.
표준 step-DPO와 제안된 TIPO의 학습 방식 비교 도식
주요 결과
Privacy Preference 데이터셋 실험 결과, TIPO는 기존 DPO 대비 월등한 성능 향상을 보였다. 작업 성공률(SR)은 65.60%를 유지하면서도, 페르소나 준수 성능을 나타내는 Compliance 점수에서 DPO(31.94)보다 높은 46.22를 기록했다.
페르소나 변별력(PD) 지표에서도 66.67%를 달성하여 SFT(59.26%)나 DPO(59.26%)를 크게 앞질렀다. 이는 TIPO가 단순히 작업을 잘 수행할 뿐만 아니라, 사용자가 설정한 개인정보 보호 성향에 맞춰 행동을 명확하게 차별화할 수 있음을 입증한다.
Ablation Study를 통해 선호도 가중치와 패딩 게이팅이 상호 보완적임을 확인했다. 가중치를 제거할 경우 Compliance가 38.93으로 하락했으며, 게이팅을 제거할 경우 PD가 62.96%로 떨어져 두 메커니즘 모두 안정적인 개인화 학습에 필수적임이 증명됐다.
관련 Figure

TIPO(Ours)가 작업 성공률을 유지하면서도 페르소나 준수 및 변별력 지표에서 다른 베이스라인 모델들보다 균형 잡힌 우수한 성능을 보임을 시각화한다.
다양한 성능 지표(SR, PAS-S, PAS-U, Comp, PD)를 비교한 레이더 차트
기술 상세
TIPO는 Qwen2.5VL-3B를 백본 모델로 사용하며, Planner-Executor 패러다임을 채택하여 시각적 관찰과 XML 구조를 동시에 처리한다. 궤적 정렬 시 LLM을 활용해 분기점(Divergence point)을 식별하고 수동 검증을 거쳐 데이터 품질을 확보했다.
수학적으로 TIPO의 목적 함수는 단계별 DPO 손실에 가중치 alpha와 게이트 m을 결합한 형태다. 이는 시퀀스 전체의 평균적인 차이만을 보던 기존 방식과 달리, 각 타임스텝 t에서의 정책 모델과 참조 모델 간의 로그 확률 비율을 개별적으로 최적화할 수 있게 한다.
학습 시에는 작업 성공률을 저해하지 않기 위해 SFT(Supervised Fine-Tuning)를 먼저 수행한 후 TIPO를 적용하는 2단계 전략을 사용한다. 이를 통해 에이전트는 앱 조작 능력과 사용자 성향 맞춤 능력을 동시에 갖추게 된다.
한계점
TIPO는 주로 궤적 수준의 페르소나 정렬을 개선하는 데 집중하며, 모바일 GUI 에이전트의 근본적인 그라운딩(Grounding) 능력이나 장기 계획(Long-horizon planning) 능력 자체를 획기적으로 높이지는 못한다는 한계가 있다.
실무 활용
사용자의 개인정보 성향에 따라 다르게 동작해야 하는 지능형 모바일 에이전트 개발에 즉시 적용 가능하다.
- 사용자 성향(보안 중시 vs 편의 중시)에 따른 맞춤형 앱 자동화 서비스
- 금융, 의료 등 민감 정보를 다루는 앱에서의 안전한 에이전트 조작 가이드라인 학습
- 다양한 사용자 페르소나를 가진 멀티모달 LLM 기반 비서의 행동 정렬(Alignment)
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.