KnowU-Bench: 상호작용, 선제적 대응 및 개인화된 모바일 에이전트 평가를 향한 벤치마크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 모바일 에이전트 평가가 단순한 명령 이행에 치중했던 것과 달리, 이 논문은 사용자의 숨겨진 의도를 파악하고 스스로 판단하여 행동하는 '개인화된 비서'로서의 능력을 측정하는 새로운 기준을 제시합니다. 실제 안드로이드 환경에서 동작하며 사용자와의 대화를 통해 부족한 정보를 채우는 능력을 평가함으로써, 단순한 인터페이스 조작을 넘어 진정한 지능형 비서로 가는 핵심 병목 지점을 밝혀냈습니다.

왜 중요한가

기존 모바일 에이전트 평가가 단순한 명령 이행에 치중했던 것과 달리, 이 논문은 사용자의 숨겨진 의도를 파악하고 스스로 판단하여 행동하는 '개인화된 비서'로서의 능력을 측정하는 새로운 기준을 제시합니다. 실제 안드로이드 환경에서 동작하며 사용자와의 대화를 통해 부족한 정보를 채우는 능력을 평가함으로써, 단순한 인터페이스 조작을 넘어 진정한 지능형 비서로 가는 핵심 병목 지점을 밝혀냈습니다.

핵심 기여

KnowU-Bench 프레임워크 구축

재현 가능한 안드로이드 에뮬레이션 환경을 기반으로 42개의 일반 작업, 86개의 개인화 작업, 64개의 선제적 대응 작업을 포함하는 온라인 벤치마크를 설계했다.

LLM 기반 사용자 시뮬레이터 도입

구조화된 사용자 프로필을 바탕으로 에이전트와 다회차 대화가 가능한 시뮬레이터를 구현하여, 에이전트가 모호한 명령을 받았을 때 질문을 통해 의도를 명확히 하는 능력을 평가할 수 있게 했다.

선제적 의사결정 체인 평가

단순 실행을 넘어 개입 여부 결정, 사용자 동의 구하기, 거절 후 행동 자제 등 선제적 서비스 제공 과정 전체를 평가하는 지표를 도입했다.

규칙 및 LLM 기반 하이브리드 평가 프로토콜

결과값의 정확성을 검증하는 규칙 기반 평가와 사용자의 선호도 및 대화 품질을 측정하는 LLM-as-a-Judge 방식을 결합하여 평가의 신뢰도를 높였다.

핵심 아이디어 이해하기

기존의 모바일 GUI 에이전트는 주로 화면상의 요소를 인식하고 클릭하는 '조작 능력'에 집중해 왔으며, 평가는 정해진 정답 경로를 얼마나 잘 따르는지를 측정하는 데 머물렀다. 하지만 실제 비서 역할을 수행하려면 사용자가 "점심 주문해줘"라고만 말했을 때, 과거 기록(Embedding)에서 선호하는 음식을 찾거나 부족한 정보(배달 앱 선택 등)를 대화를 통해 채워나가는 능력이 필수적이다.

KnowU-Bench는 에이전트에게 사용자의 상세 프로필을 직접 주지 않고 오직 과거 행동 로그(Behavioral Logs)만 노출함으로써, 에이전트가 스스로 사용자의 패턴을 추론하도록 강제한다. 이는 모델이 단순히 컨텍스트 윈도우 내의 정보를 검색하는 것을 넘어, 흩어진 데이터 조각들을 연결해 사용자의 의도를 재구성해야 함을 의미한다.

실험 결과, 최신 모델인 Claude 4.6 Sonnet조차 명확한 지시문에서는 높은 성능을 보였으나, 사용자 선호도 추론이 필요한 모호한 지시문에서는 성공률이 급격히 하락했다. 이는 현재의 AI 에이전트가 화면 조작 기술은 뛰어나지만, 사용자의 맥락을 이해하고 적절한 시점에 개입하거나 질문하는 '지능적 판단' 영역에서 여전히 큰 격차가 있음을 시사한다.

방법론

KnowU-Bench는 Partially Observable Markov Decision Process(POMDP)로 공식화된 모바일 자동화 환경을 사용한다. 컨테이너화된 안드로이드 스택(Pixel 8 AVD)과 FastAPI 오케스트레이션 서버를 통해 에이전트의 행동을 실제 GUI 결과로 연결하고 프로그램적으로 검증한다. 에이전트는 화면 스크린샷(Observation)과 과거 로그를 입력받아 클릭, 드래그, 텍스트 입력 등의 행동(Action)을 수행한다.

사용자 시뮬레이터는 gpt-4o를 기반으로 하며, 이름, 나이, 습관, 선호도 등이 담긴 YAML 형식의 구조화된 프로필을 보유한다. 에이전트가 ask_user 액션을 취하면 시뮬레이터는 프로필에 근거하여 답변을 생성한다. 예를 들어 사용자가 땅콩 알레르기가 있다는 정보가 프로필에 있다면, 에이전트가 메뉴를 물었을 때 이를 반영한 답변을 제공하여 에이전트의 대응 능력을 테스트한다.

평가는 하이브리드 방식을 채택한다. 규칙 기반 판정(Rule-Based Judge)은 이벤트 생성 여부나 설정 변경 등 결정론적 상태를 확인하여 0 또는 1의 신호를 반환한다. LLM 기반 판정(LLM-as-a-Judge)은 대화의 적절성, 선호도 일치 여부 등을 다차원 루브릭으로 평가하여 점수를 산출한다. 최종 점수 Si는 두 점수의 가중 합(λiSrule + (1-λi)Sllm)으로 계산되며, 작업의 성격에 따라 가중치 λ가 조정된다.

주요 결과

11개의 최신 모델을 테스트한 결과, 명확한 지시(General Tasks)에서는 MAI-UI-8B와 Seed 2.0 Pro가 100%의 성공률을 기록하며 GUI 조작 능력이 성숙했음을 보여주었다. 그러나 사용자 선호도 추론이 필요한 개인화 작업(Personalized Tasks)에서는 Claude 4.6 Sonnet이 44.2%로 가장 높았으며, 오픈소스 모델들은 대부분 12% 미만의 낮은 성공률을 보였다.

선제적 대응 작업(Proactive Tasks)에서도 유사한 경향이 나타났다. Claude 4.6 Sonnet은 84.4%의 성공률을 보였으나, 실패 사례의 80%가 부적절한 개입(Intervention)이나 수동적 태도(Passivity)에서 기인했다. 이는 모델이 '언제' 개입해야 하는지에 대한 보정(Calibration) 능력이 부족함을 나타낸다.

오류 분석에 따르면, 개인화 작업 실패의 66.7%는 불충분한 질문(Clarify) 때문이었으며, 선제적 작업 실패의 60%는 불필요한 개입(Unwarranted Intervention) 때문이었다. 이는 에이전트가 사용자의 의도를 명확히 하기 위해 적절한 질문을 던지거나, 개입하지 않고 침묵해야 할 때를 판단하는 능력이 현재 AI 모델의 주요 병목 구간임을 증명한다.

기술 상세

KnowU-Bench의 아키텍처는 환경(Environment), 모바일 에이전트(Mobile Agent), 사용자 에이전트(User Agent)의 세 가지 핵심 축으로 구성된다. 환경은 23개의 앱과 192개의 작업을 포함하며, 모든 작업은 스냅샷 기반으로 초기화되어 재현성을 보장한다. 사용자 에이전트는 단순한 텍스트 응답기가 아니라, 고유한 정체성과 습관을 가진 페르소나로서 에이전트와 상호작용한다.

기술적으로 주목할 점은 '선제적 의사결정 체인'의 평가다. 에이전트는 현재 상태(시간, 장소, GUI 상태)를 보고 직접 실행, 확인 요청, 또는 침묵 유지 중 하나를 선택해야 한다. 이는 단순한 분류 문제가 아니라 동적인 환경에서의 정책 결정 문제로 다루어진다. 또한, 사용자가 제안을 거절했을 때 에이전트가 즉시 행동을 멈추고 자제하는지(Post-rejection restraint)를 측정하여 안전성과 신뢰성을 평가한다.

메모리 구현 방식에 대한 비교 연구도 포함되어 있다. 전체 로그를 모두 제공하는 방식(Full Log)과 임베딩 기반으로 관련 로그만 추출하는 방식(RAG Log)을 비교했을 때, 모델의 아키텍처에 따라 최적의 메모리 전략이 다르다는 점을 발견했다. 이는 에이전트 설계 시 사용자 데이터를 어떻게 구조화하고 검색할지가 성능에 결정적인 영향을 미침을 시사한다.

한계점

논문은 현재 벤치마크가 4개의 고정된 사용자 프로필(개발자, 할머니, 학생, 연구자)에 의존하고 있어 더 다양한 사용자 계층을 대변하기에는 한계가 있음을 명시했다. 또한, 현재의 사용자 시뮬레이터가 LLM 기반이므로 시뮬레이터 자체의 편향이나 오류가 평가 결과에 영향을 줄 수 있는 가능성을 언급했다.

실무 활용

이 벤치마크는 실제 안드로이드 환경과 연동되므로, 모바일 비서 서비스를 개발하는 기업들이 자사 에이전트의 실질적인 '비서 능력'을 정교하게 측정하는 데 즉시 활용될 수 있습니다.

개인화된 쇼핑 에이전트의 사용자 선호도 추론 능력 테스트
스마트 홈/모바일 기기에서 AI의 선제적 알림 및 자동화 실행 시점 최적화
사용자 대화 로그를 활용한 에이전트의 장기 기억 및 맥락 이해 성능 평가

코드 공개 여부: 공개

코드 저장소 보기

키워드

Personalized Agent(개인화된 에이전트)Mobile GUI(모바일 그래픽 사용자 인터페이스)Proactive Assistance(선제적 지원)User Simulation(사용자 시뮬레이션)Benchmark(벤치마크)