핵심 요약
기존 모바일 GUI 벤치마크들이 특정 앱 기능에만 치중되어 실제 사용자 의도를 반영하지 못하는 한계를 해결합니다. 인지, 메모리, 의사결정 등 에이전트의 세부 능력을 진단할 수 있는 체계를 제공하여 실질적인 기술적 병목 구간을 명확히 식별합니다.
왜 중요한가
기존 모바일 GUI 벤치마크들이 특정 앱 기능에만 치중되어 실제 사용자 의도를 반영하지 못하는 한계를 해결합니다. 인지, 메모리, 의사결정 등 에이전트의 세부 능력을 진단할 수 있는 체계를 제공하여 실질적인 기술적 병목 구간을 명확히 식별합니다.
핵심 기여
사용자 의도 중심의 VenusBench-Mobile 구축
앱 중심의 기존 평가 방식에서 벗어나 10가지 주요 사용자 의도 카테고리와 149개의 작업을 포함하는 벤치마크를 설계했다. 이를 통해 여러 앱을 가로지르는 복합적인 작업과 모호한 지시어 처리 능력을 평가한다.
PUDAM 능력 진단 프레임워크 제안
에이전트의 능력을 Perception(인지), Understanding(이해), Decision(의사결정), Action(행동), Memory(메모리)의 5가지 차원으로 분해하고 4단계 숙련도로 정의하여 실패 원인을 정밀하게 분석할 수 있게 했다.
체계적인 환경 변이 도입을 통한 강건성 평가
언어 번역, 레이아웃 변경(태블릿 모드), 다크 모드 등 80개의 환경 변이를 도입하여 에이전트가 실제 배포 환경에서 겪을 수 있는 분포 변화에 얼마나 취약한지 측정했다.
핵심 아이디어 이해하기
모바일 GUI 에이전트는 화면의 시각적 요소를 인식하고(Perception), 사용자의 자연어 명령을 해석하며(Understanding), 다음 행동을 계획(Decision)하여 실행(Action)하는 루프를 반복한다. 기존 벤치마크는 이 과정을 단순히 '성공/실패'라는 결과값으로만 측정했기에, 모델이 화면의 작은 아이콘을 못 찾아서 실패한 것인지 아니면 이전 단계의 정보를 잊어버려서 실패한 것인지 구분하기 어려웠다.
VenusBench-Mobile은 이를 해결하기 위해 각 작업에 필요한 최소 능력치를 PUDAM이라는 5개 축으로 라벨링했다. 예를 들어, 여러 페이지를 넘기며 정보를 수집해야 하는 작업은 높은 수준의 Memory 점수를 요구하도록 설정된다. 이를 통해 특정 모델이 특정 능력치에서 급격한 성능 저하를 보이는 지점을 데이터로 확인할 수 있다.
실험 결과, 현재의 SOTA 모델들은 기본적인 명령 수행에는 능숙하지만, 환경이 조금만 바뀌거나(예: 스마트폰에서 태블릿으로 변경) 장기적인 상태 추적이 필요한 작업에서는 성능이 급격히 하락하는 '능력 붕괴' 현상이 관찰되었다. 이는 단순히 모델의 크기를 키우는 것보다 메모리 구조와 정밀한 공간 인지 능력의 개선이 시급함을 시사한다.
방법론
VenusBench-Mobile은 AndroidWorld를 기반 인프라로 활용하여 27개의 오픈소스 앱 환경을 구축했다. 전체 작업은 10개의 사용자 중심 카테고리(기능 지원, 충돌 해결, 모호한 지시, 다회차 상호작용, GUI 상태 인식 등)로 구성되며, 각 작업은 PUDAM(Perception, Understanding, Decision, Action, Memory) 체계에 따라 1~4단계의 난이도가 할당된다.
평가 파이프라인은 하이브리드 검증 방식을 채택했다. 상태 기반 작업은 OS 수준의 프로그래밍 방식(Programmatic Verify)으로 검증하고, 시각적 확인이나 의미론적 이해가 필요한 90개의 작업은 Qwen3-VL-30B-A3B-Instruct를 판정관으로 사용하는 MLLM-as-a-Judge 방식을 적용했다. [에이전트의 최종 스크린샷과 실행 궤적을 입력으로] → [MLLM 판정관이 정답 이미지 및 텍스트와 비교 연산을 수행하여] → [성공 여부를 이진값으로 출력하고] → [실패 시 구체적인 사유를 기록하는 방식]이다.
강건성 측정을 위해 Stability Evaluation(SE) 서브셋을 운영한다. 하나의 기본 작업을 5가지 변이(원본, 중국어 번역, 의미적 변이, 다크 모드, 태블릿 모드)로 확장하여, 에이전트가 5가지 상황 모두에서 성공해야만 최종 성공으로 인정하는 Stability Pass Rate(SPR) 지표를 도입했다.
주요 결과
Gemini-3-Pro를 포함한 최신 모델들도 VenusBench-Mobile에서 고전하는 것으로 나타났다. Gemini-3-Pro는 기존 벤치마크 대비 약 50%p 하락한 36.9%의 성공률을 기록했으며, 대부분의 오픈소스 모델은 15% 미만의 낮은 성과를 보였다. 특히 GUI 상태 인식(GSA)과 시각적 조작(GUIM) 카테고리에서의 평균 성공률은 각각 2.5%, 4.2%에 불과했다.
능력치 분석 결과, Memory(M)가 가장 심각한 병목 구간으로 확인되었다. L1-2 수준의 기초 메모리 작업 대비 L3-4 수준의 고급 메모리 작업에서 성공률이 18.4%에서 10.9%로 급락했다. 또한 환경 변이에 대한 대응력을 측정하는 SPR 지표에서 대부분의 모델이 0%를 기록했으며, 가장 우수한 모델도 15%에 그쳐 실제 배포 환경에서의 신뢰성이 매우 낮음이 증명되었다.
추론 비용 분석에서는 에이전트 프레임워크의 오버헤드가 확인되었다. 멀티 에이전트 구조인 MA3는 단일 모델 대비 약 11배 많은 토큰(단계당 438.7개)을 소비하여, 실시간 온디바이스 배포를 위해서는 추론 효율성 개선이 필수적임을 보여주었다.
기술 상세
VenusBench-Mobile의 핵심은 PUDAM 분류 체계다. Perception은 정적 요소 인식부터 동적 변화 감지까지, Understanding은 단순 명령 이해부터 모호성 해소까지 단계별로 정의된다. Decision은 결정론적 경로 추종에서 동적 전략 수정 및 오류 복구로 확장되며, Action은 기본 터치에서 정밀한 궤적 제어로, Memory는 단기 상태 유지에서 장기적 교차 작업 기억으로 심화된다.
실험에 사용된 에이전트 프레임워크는 Planner-Executor 구조를 취한다. Planner(Gemini-3-Pro 등)가 스크린샷과 이력을 바탕으로 행동을 결정하면, 전용 Grounding 모델(UI-Venus-72B)이 이를 구체적인 (x, y) 좌표로 변환하여 실행한다. 각 단계 후에는 스크린샷 비교를 통해 요약(Summarization)을 생성하고 이를 컨텍스트에 추가하여 다음 단계의 의사결정을 돕는다.
연구팀은 특히 'Memory'의 한계가 단순히 컨텍스트 윈도우 크기의 문제가 아님을 지적한다. 대규모 모델조차 L3-4 수준의 메모리 작업에서 무너지는 현상은, 과거 정보를 단순히 텍스트로 나열하는 방식이 아닌 구조화된 상태 추적 메커니즘이 아키텍처 수준에서 필요함을 시사한다.
한계점
현재 벤치마크는 HTML 기반의 온라인 학습 평가를 포함하고 있으나 아직 기초적인 수준에 머물러 있습니다. 또한 실제 사용자는 장기간에 걸쳐 에이전트를 사용하지만, 본 연구는 개별 에피소드 단위의 평가에 집중되어 있어 초장기 메모리 및 개인화 능력 평가에는 한계가 있습니다.
실무 활용
모바일 제조사나 앱 개발사가 자사의 AI 에이전트 성능을 실제 사용자 시나리오에서 객관적으로 검증하는 도구로 활용할 수 있습니다. 특히 단순 기능 수행을 넘어 다양한 기기 환경과 언어 설정에서의 강건성을 테스트하는 데 유용합니다.
- 모바일 OS 내장 AI 어시스턴트의 다국어 및 다기능 수행 능력 벤치마킹
- 앱 업데이트 시 UI 레이아웃 변경에 따른 에이전트의 적응성 자동 테스트
- 에이전트 모델의 메모리 및 인지 능력 병목 구간 식별을 통한 아키텍처 개선 가이드
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.