핵심 요약
대부분의 고성능 모바일 에이전트는 학습 데이터와 생성 방식이 비공개되어 있어 연구의 재현이 어려웠다. OpenMobile은 환경 탐색을 통해 구축한 전역 메모리를 기반으로 고품질 데이터를 합성하는 개방형 프레임워크를 제공하여 오픈소스 에이전트의 성능을 비약적으로 향상시킨다.
왜 중요한가
대부분의 고성능 모바일 에이전트는 학습 데이터와 생성 방식이 비공개되어 있어 연구의 재현이 어려웠다. OpenMobile은 환경 탐색을 통해 구축한 전역 메모리를 기반으로 고품질 데이터를 합성하는 개방형 프레임워크를 제공하여 오픈소스 에이전트의 성능을 비약적으로 향상시킨다.
핵심 기여
확장 가능한 작업 합성 파이프라인
단일 궤적에 의존하던 기존 방식에서 벗어나 앱의 전체 기능을 탐색하여 전역 환경 메모리(Global Environment Memory)를 구축하고, 이를 통해 복잡하고 다양한 명령어를 생성한다.
정책 전환 궤적 롤아웃 전략
학습 모델(Learner)과 전문가 모델(Expert)을 교대로 사용하는 Policy-Switching 전략을 통해 전문가의 정답 데이터뿐만 아니라 학습 모델의 실수를 전문가가 수정하는 오류 복구 데이터를 수집한다.
고품질 오픈소스 데이터셋 공개
20개의 안드로이드 앱에서 추출한 2.8K개의 작업 지침과 34K개의 행동 단계를 포함하는 데이터셋을 공개하여 폐쇄형 모델에 필적하는 성능을 구현할 수 있는 기반을 마련했다.
핵심 아이디어 이해하기
기존의 모바일 에이전트 학습 데이터 생성은 에이전트가 한 번 움직인 경로(궤적) 내에서만 작업을 만들어냈기 때문에 데이터의 다양성이 부족했다. 이는 마치 동네 한 바퀴만 돌아보고 도시 전체의 지도를 그리려는 것과 같아, 에이전트가 복잡한 다단계 작업을 수행하는 데 한계가 있었다.
OpenMobile은 먼저 앱의 모든 화면과 기능을 샅샅이 훑어 '전역 환경 메모리'라는 지도를 먼저 만든다. 이 지도에는 각 화면의 기능(Functionality)과 화면 간의 연결 관계가 저장된다. 이후 작업을 생성할 때 현재 화면의 정보뿐만 아니라 지도에서 검색한 멀리 떨어진 기능들을 조합하여 'A 앱에서 정보를 찾아 B 기능을 실행하라'와 같은 고차원적인 명령을 만들어낸다.
또한, 단순히 전문가의 완벽한 행동만 따라 하게 하는 Imitation Learning의 한계를 극복하기 위해 학습 중인 모델이 실수했을 때 전문가가 개입하여 바로잡는 과정을 데이터에 포함한다. 이를 통해 에이전트는 성공하는 법뿐만 아니라, 예상치 못한 오류 상황에서 어떻게 정상 궤도로 돌아오는지 학습하게 되어 실제 환경에서의 생존력을 높인다.
방법론
전체 시스템은 크게 환경 탐색, 전역 환경 메모리 구축, 작업 합성, 궤적 롤아웃의 4단계로 구성된다. 환경 탐색 단계에서는 Random Walk를 통해 앱의 다양한 상태를 방문하며 스크린샷과 액션 로그를 수집한다.
전역 환경 메모리 구축 시에는 Perceptual Hashing을 사용하여 시각적으로 유사한 화면을 클러스터링한다. [각 화면 이미지의 해시값을 비교] → [유사도가 임계값 0.95 이상인 화면을 동일 노드로 병합] → [화면 간 전이 관계를 엣지로 연결] → [그래프 구조의 환경 지도 생성] 과정을 거친다. 각 노드에는 VLM을 이용해 추출한 기능 설명(Functionality Set)이 할당된다.
궤적 생성에는 Error-Intervention Switching 전략을 사용한다. 모니터 모델(O)이 학습 모델의 행동을 실시간으로 감시하며, [현재 화면과 이전 행동 입력] → [작업 목표 이탈 여부 판단] → [이탈 시 전문가 모델로 제어권 전환] → [전문가가 3단계 이상 수정 행동 수행 후 복귀] 순으로 작동하여 오류 복구 신호를 데이터에 주입한다.
관련 Figure

왼쪽(a)은 전역 환경 메모리를 구축하여 단기/장기 메모리를 결합해 고품질 지침을 만드는 과정을 보여주며, 오른쪽(b)은 오류 발생 시 전문가가 개입하는 Error-Intervention Switch 전략을 다른 전략들과 비교하여 시각화한다. 이 다이어그램은 논문의 핵심인 데이터 합성 및 수집 메커니즘을 한눈에 설명한다.
OpenMobile의 확장 가능한 작업 합성 및 정책 전환 롤아웃의 전체 개요도
주요 결과
AndroidWorld 벤치마크에서 Qwen3-VL-8B 기반 모델이 64.7%의 성공률을 기록하며 기존 오픈 데이터 기반 모델(UI-S1-7B, 34.0%)을 압도했다. 이는 상용 모델인 Gemini-3-Pro(60.3%)보다 높은 수치이다.
MobileWorld 벤치마크에서도 기존 9.4%에서 17.7%로 성능을 개선하며 장기 작업(Long-horizon) 및 교차 앱 워크플로우 처리 능력을 증명했다. Ablation Study 결과, Policy-Switching을 통해 수집된 오류 복구 인스턴스가 궤적당 평균 1.56개로 나타나 전문가 증류 방식(0.42개)보다 훨씬 풍부한 학습 신호를 제공함을 확인했다.
기술 상세
OpenMobile은 Interaction-driven 데이터 합성의 한계인 '탐색과 생성의 강한 결합'을 해제(Decouple)했다. 전역 메모리 M은 (S, N, F)의 튜플로 정의되며, 여기서 S는 고유 화면 집합, N은 이웃 관계, F는 기능 설명 집합이다. 작업 합성 시 현재 화면의 단기 메모리와 시맨틱 임베딩 기반으로 검색된 장기 메모리를 결합하여 Context C(si)를 구성한다.
Policy-Switching 롤아웃은 분포 불일치(Distribution Mismatch) 문제를 해결한다. 학습 모델 πl과 전문가 모델 πe 사이의 전환 변수 zt를 모니터 O가 결정하며, 이는 단순 Random Switching보다 노이즈가 적고 일관된 작업 완료를 보장한다. 학습 시에는 전체 이력을 컨텍스트로 유지하되 전문가의 수정 단계만을 학습 타겟으로 삼아 효율적인 Supervised Fine-tuning(SFT)을 수행한다.
한계점
현재 프레임워크는 네트워크 연결이 없는 가상 환경을 가정하고 있어, 실시간 인터넷 데이터나 로그인이 필요한 서비스에 대한 작업 생성에는 제한이 있다. 또한 RL 학습 시 환경의 다양성 부족으로 인해 SFT 대비 성능 향상이 크지 않다는 점이 언급되었다.
실무 활용
안드로이드 환경에서 자율적으로 동작하는 모바일 에이전트를 개발하려는 연구자와 엔지니어에게 즉시 활용 가능한 데이터 합성 파이프라인과 데이터셋을 제공한다.
- 개인 비서 에이전트의 복합 작업(일정 예약 후 메시지 전송 등) 학습 데이터 생성
- 모바일 앱의 UI 자동화 테스트를 위한 시나리오 및 테스트 스크립트 생성
- 오류 복구 능력이 강화된 온디바이스 AI 에이전트 모델 파인튜닝
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.