핵심 요약
기존 모바일 에이전트 평가가 단순한 명령 이행에 치중했던 것과 달리, 이 논문은 사용자의 숨겨진 의도를 파악하고 스스로 판단하여 행동하는 '개인화된 비서'로서의 능력을 측정하는 새로운 기준을 제시합니다. 실제 안드로이드 환경에서 동작하며 사용자와의 대화를 통해 부족한 정보를 채우는 능력을 평가함으로써, 단순한 인터페이스 조작을 넘어 진정한 지능형 비서로 가는 핵심 병목 지점을 밝혀냈습니다.
왜 중요한가
기존 모바일 에이전트 평가가 단순한 명령 이행에 치중했던 것과 달리, 이 논문은 사용자의 숨겨진 의도를 파악하고 스스로 판단하여 행동하는 '개인화된 비서'로서의 능력을 측정하는 새로운 기준을 제시합니다. 실제 안드로이드 환경에서 동작하며 사용자와의 대화를 통해 부족한 정보를 채우는 능력을 평가함으로써, 단순한 인터페이스 조작을 넘어 진정한 지능형 비서로 가는 핵심 병목 지점을 밝혀냈습니다.
관련 Figure

왼쪽 그래프는 지시가 명확할 때(Clear)보다 모호할 때(Vague) 모델의 성능이 급격히 하락함을 보여주며, 오른쪽은 이를 해결하기 위해 벤치마크가 갖춘 모바일 환경, 사용자 시뮬레이터, 하이브리드 평가 체계를 설명한다. 이는 본 연구가 왜 단순 조작을 넘어선 지능 평가에 집중하는지 정당성을 부여한다.
명확한 지시와 모호한 지시에 따른 모델 성능 차이 및 KnowU-Bench의 구성 요소를 보여주는 다이어그램이다.
핵심 기여
KnowU-Bench 프레임워크 구축
재현 가능한 안드로이드 에뮬레이션 환경을 기반으로 42개의 일반 작업, 86개의 개인화 작업, 64개의 선제적 대응 작업을 포함하는 온라인 벤치마크를 설계했다.
LLM 기반 사용자 시뮬레이터 도입
구조화된 사용자 프로필을 바탕으로 에이전트와 다회차 대화가 가능한 시뮬레이터를 구현하여, 에이전트가 모호한 명령을 받았을 때 질문을 통해 의도를 명확히 하는 능력을 평가할 수 있게 했다.
선제적 의사결정 체인 평가
단순 실행을 넘어 개입 여부 결정, 사용자 동의 구하기, 거절 후 행동 자제 등 선제적 서비스 제공 과정 전체를 평가하는 지표를 도입했다.
규칙 및 LLM 기반 하이브리드 평가 프로토콜
결과값의 정확성을 검증하는 규칙 기반 평가와 사용자의 선호도 및 대화 품질을 측정하는 LLM-as-a-Judge 방식을 결합하여 평가의 신뢰도를 높였다.
핵심 아이디어 이해하기
기존의 모바일 GUI 에이전트는 주로 화면상의 요소를 인식하고 클릭하는 '조작 능력'에 집중해 왔으며, 평가는 정해진 정답 경로를 얼마나 잘 따르는지를 측정하는 데 머물렀다. 하지만 실제 비서 역할을 수행하려면 사용자가 "점심 주문해줘"라고만 말했을 때, 과거 기록(Embedding)에서 선호하는 음식을 찾거나 부족한 정보(배달 앱 선택 등)를 대화를 통해 채워나가는 능력이 필수적이다.
KnowU-Bench는 에이전트에게 사용자의 상세 프로필을 직접 주지 않고 오직 과거 행동 로그(Behavioral Logs)만 노출함으로써, 에이전트가 스스로 사용자의 패턴을 추론하도록 강제한다. 이는 모델이 단순히 컨텍스트 윈도우 내의 정보를 검색하는 것을 넘어, 흩어진 데이터 조각들을 연결해 사용자의 의도를 재구성해야 함을 의미한다.
실험 결과, 최신 모델인 Claude 4.6 Sonnet조차 명확한 지시문에서는 높은 성능을 보였으나, 사용자 선호도 추론이 필요한 모호한 지시문에서는 성공률이 급격히 하락했다. 이는 현재의 AI 에이전트가 화면 조작 기술은 뛰어나지만, 사용자의 맥락을 이해하고 적절한 시점에 개입하거나 질문하는 '지능적 판단' 영역에서 여전히 큰 격차가 있음을 시사한다.
방법론
KnowU-Bench는 Partially Observable Markov Decision Process(POMDP)로 공식화된 모바일 자동화 환경을 사용한다. 컨테이너화된 안드로이드 스택(Pixel 8 AVD)과 FastAPI 오케스트레이션 서버를 통해 에이전트의 행동을 실제 GUI 결과로 연결하고 프로그램적으로 검증한다. 에이전트는 화면 스크린샷(Observation)과 과거 로그를 입력받아 클릭, 드래그, 텍스트 입력 등의 행동(Action)을 수행한다.
사용자 시뮬레이터는 gpt-4o를 기반으로 하며, 이름, 나이, 습관, 선호도 등이 담긴 YAML 형식의 구조화된 프로필을 보유한다. 에이전트가 ask_user 액션을 취하면 시뮬레이터는 프로필에 근거하여 답변을 생성한다. 예를 들어 사용자가 땅콩 알레르기가 있다는 정보가 프로필에 있다면, 에이전트가 메뉴를 물었을 때 이를 반영한 답변을 제공하여 에이전트의 대응 능력을 테스트한다.
평가는 하이브리드 방식을 채택한다. 규칙 기반 판정(Rule-Based Judge)은 이벤트 생성 여부나 설정 변경 등 결정론적 상태를 확인하여 0 또는 1의 신호를 반환한다. LLM 기반 판정(LLM-as-a-Judge)은 대화의 적절성, 선호도 일치 여부 등을 다차원 루브릭으로 평가하여 점수를 산출한다. 최종 점수 Si는 두 점수의 가중 합(λiSrule + (1-λi)Sllm)으로 계산되며, 작업의 성격에 따라 가중치 λ가 조정된다.
관련 Figure

작업 초기화부터 에이전트의 행동, 사용자 시뮬레이터와의 상호작용, 그리고 최종적으로 규칙 기반 및 LLM 기반 판정단이 결합되어 점수를 산출하는 과정을 시각화했다. 특히 하이브리드 평가가 어떻게 구성되는지 구체적으로 보여준다.
KnowU-Bench의 전체 작업 수행 및 평가 파이프라인을 상세히 나타낸 아키텍처 도표이다.
주요 결과
11개의 최신 모델을 테스트한 결과, 명확한 지시(General Tasks)에서는 MAI-UI-8B와 Seed 2.0 Pro가 100%의 성공률을 기록하며 GUI 조작 능력이 성숙했음을 보여주었다. 그러나 사용자 선호도 추론이 필요한 개인화 작업(Personalized Tasks)에서는 Claude 4.6 Sonnet이 44.2%로 가장 높았으며, 오픈소스 모델들은 대부분 12% 미만의 낮은 성공률을 보였다.
선제적 대응 작업(Proactive Tasks)에서도 유사한 경향이 나타났다. Claude 4.6 Sonnet은 84.4%의 성공률을 보였으나, 실패 사례의 80%가 부적절한 개입(Intervention)이나 수동적 태도(Passivity)에서 기인했다. 이는 모델이 '언제' 개입해야 하는지에 대한 보정(Calibration) 능력이 부족함을 나타낸다.
오류 분석에 따르면, 개인화 작업 실패의 66.7%는 불충분한 질문(Clarify) 때문이었으며, 선제적 작업 실패의 60%는 불필요한 개입(Unwarranted Intervention) 때문이었다. 이는 에이전트가 사용자의 의도를 명확히 하기 위해 적절한 질문을 던지거나, 개입하지 않고 침묵해야 할 때를 판단하는 능력이 현재 AI 모델의 주요 병목 구간임을 증명한다.
관련 Figure

개인화 작업에서는 질문 부족(Clarify, 66.7%)이, 선제적 작업에서는 부적절한 개입(Intervention, 60.0%)이 가장 큰 실패 원인임을 수치로 보여준다. 이는 향후 에이전트 연구가 집중해야 할 기술적 과제를 명확히 제시한다.
개인화 작업과 선제적 대응 작업에서 발생하는 주요 실패 원인을 분석한 파이 차트이다.
기술 상세
KnowU-Bench의 아키텍처는 환경(Environment), 모바일 에이전트(Mobile Agent), 사용자 에이전트(User Agent)의 세 가지 핵심 축으로 구성된다. 환경은 23개의 앱과 192개의 작업을 포함하며, 모든 작업은 스냅샷 기반으로 초기화되어 재현성을 보장한다. 사용자 에이전트는 단순한 텍스트 응답기가 아니라, 고유한 정체성과 습관을 가진 페르소나로서 에이전트와 상호작용한다.
기술적으로 주목할 점은 '선제적 의사결정 체인'의 평가다. 에이전트는 현재 상태(시간, 장소, GUI 상태)를 보고 직접 실행, 확인 요청, 또는 침묵 유지 중 하나를 선택해야 한다. 이는 단순한 분류 문제가 아니라 동적인 환경에서의 정책 결정 문제로 다루어진다. 또한, 사용자가 제안을 거절했을 때 에이전트가 즉시 행동을 멈추고 자제하는지(Post-rejection restraint)를 측정하여 안전성과 신뢰성을 평가한다.
메모리 구현 방식에 대한 비교 연구도 포함되어 있다. 전체 로그를 모두 제공하는 방식(Full Log)과 임베딩 기반으로 관련 로그만 추출하는 방식(RAG Log)을 비교했을 때, 모델의 아키텍처에 따라 최적의 메모리 전략이 다르다는 점을 발견했다. 이는 에이전트 설계 시 사용자 데이터를 어떻게 구조화하고 검색할지가 성능에 결정적인 영향을 미침을 시사한다.
한계점
논문은 현재 벤치마크가 4개의 고정된 사용자 프로필(개발자, 할머니, 학생, 연구자)에 의존하고 있어 더 다양한 사용자 계층을 대변하기에는 한계가 있음을 명시했다. 또한, 현재의 사용자 시뮬레이터가 LLM 기반이므로 시뮬레이터 자체의 편향이나 오류가 평가 결과에 영향을 줄 수 있는 가능성을 언급했다.
실무 활용
이 벤치마크는 실제 안드로이드 환경과 연동되므로, 모바일 비서 서비스를 개발하는 기업들이 자사 에이전트의 실질적인 '비서 능력'을 정교하게 측정하는 데 즉시 활용될 수 있습니다.
- 개인화된 쇼핑 에이전트의 사용자 선호도 추론 능력 테스트
- 스마트 홈/모바일 기기에서 AI의 선제적 알림 및 자동화 실행 시점 최적화
- 사용자 대화 로그를 활용한 에이전트의 장기 기억 및 맥락 이해 성능 평가
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.