X-OmniClaw 기술 보고서: 멀티모달 이해와 상호작용을 위한 통합 모바일 에이전트

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

모바일 환경에서 다양한 모달리티를 하나의 파이프라인으로 처리해야 한다. X-OmniClaw는 on-device에서 Omni Perception, Omni Memory, Omni Action의 세 축을 연계해 프라이버시를 보호하고 지연을 줄이며 고신뢰성 자동화를 가능하게 한다.

왜 중요한가

모바일 환경에서 다양한 모달리티를 하나의 파이프라인으로 처리해야 한다. X-OmniClaw는 on-device에서 Omni Perception, Omni Memory, Omni Action의 세 축을 연계해 프라이버시를 보호하고 지연을 줄이며 고신뢰성 자동화를 가능하게 한다.

핵심 기여

Edge-native omni-modal architecture

core 로직을 안드로이드 기기에 최적화해 실행하며, UI/카메라/음성 등 다중 모달 입력을 로컬에서 처리하고, 고수준 추론은 클라우드 LLM이 수행한다.

Omni Perception: unified multimodal ingress

UI 상태, 실세계Context, 음성을 하나의 파이프라인으로 수집·처리하고, 시간 정합 모듈로 멀티모달 의도를 구조화된 표현으로 분해한다.

Omni Memory: runtime + long-term multimodal memory

실행 컨텍스트를 작업 기억으로 유지하고, 로컬 데이터에서 개인 지식을 distill해 지속적 맥락으로 활용한다. 갤러리 등 멀티모달 기록을 메모리 아카이브로 변환한다.

Omni Action: hybrid grounding and trajectory replay

구조적 XML 신호와 시각적 정보의 하이브리드 근거로 실행을 결정하고, trajectory cloning과 deeplink-based fast-entry로 견고한 실시간 작업 수행을 가능하게 한다.

핵심 아이디어 이해하기

단계1: 모바일 에이전트는 로컬에서 perception, memory, action의 순환 루프를 통해 자율적으로 동작해야 한다. 기존의 PC-기반 OpenClaw은 모바일 맥락에 부합하지 않으므로, X-OmniClaw는 3축(Omni Perception, Omni Memory, Omni Action)을 하나의 상호의존 스택으로 결합한다. 단계2: Omni Perception은 UI 상태, 실세계 맥락, 음성을 통합해 scene-grounded intent를 추출하고, Temporal Alignment로 모달리티를 동기화한다. 단계3: Omni Memory는 런타임 컨텍스트를 유지하는 Working Memory와 로컬 데이터에서 distill된 Long-term Memory를 결합해 개인화된 맥락을 제공한다. 단계4: Omni Action은 XML 기반 구조와 시각 정보를 결합해 신뢰도 높은 실행 경로를 형성하고, Behavior Cloning과 Trajectory Replay를 통해 재사용 가능한 스킬 트레이너를 구축한다.

관련 Figure

Diagram
Omni Perception, Omni Memory, Omni Action의 상호작용과 로컬 엔진의 흐름을 시각화한다. 세 축의 연결 관계를 직관적으로 이해시키며 연구의 핵심 프레임을 보강한다.
Omni Perception의 전체 시스템 구조를 개략적으로 보여주는 다이어그램

Diagram
카메라 정보 및 화면 투사 정보를 바탕으로 단계별 실행 경로를 도출하는 과정을 시각적으로 보여준다.
CameraQA/ScreenQA를 통한 시나리오 예시 흐름도

방법론

전체 흐름은 멀티모달 Trigger → 계획(Agent Loop) → groundin g → Android Action의 순환으로 구성된다. 1) Omni Perception: Unified Entry, Vision/Voice 프로세싱, AEC, Ring Buffer 및 Temporal Alignment를 통한 시점 동기화. 2) Scene-Grounded Intent Understanding: VLM이 현재 씬과 질의를 해석해 직접 답하거나 구조화된 의도를 생성. 3) Omni Memory: 런타임 컨텍스트를 저장하고 Gallery Images를 포함한 다중 소스에서 Personal Knowledge를 추출해 메모리 Artifact로 축적. 4) Omni Action: Observation, Reasoning(Identify Identity, Select Skills, Retrieve Memory, Respond) → Execution으로 이어지며, XML + OCR 기반의 하이브리드 관측으로 클릭 위치를 정밀 조정. 5) Trajectory Cloned Execution: Deeplink/Intent를 이용한 빠른 진입과 방문 페이지의 실행 주소를 재현 가능한 형태로 저장하고, 필요 시 더 단순한 진입 방식으로 복구한다.

관련 Figure

Diagram
로컬 엔진 내의 개별 모듈(Omni Perception, Omni Memory, Omni Action)과 외부 cloud API의 연동 방식을 시각화하여 엣지 네이티브 아키텍처의 실현 방식을 보인다.
X-OmniClaw Local Engine의 구성과 상호작용 흐름

Diagram
관측-추론-실행의 순환 구조와 Trajectory/Deeplink 기반 실행의 연결을 시각화하며, 하이브리드 근거 방식의 작동 원리를 보강한다.
Omni Action의 관측-추론-실행 루프 다이어그램

Diagram
UI 트리-딥링크-스킬카드 연결을 통해 재생 가능한 경로를 확보하는 흐름을 보여준다.
Trajectory Clone/Replay의 엔드투엔드 파이프라인

주요 결과

초록에 따르면 다용도 데모를 통해 X-OmniClaw가 상호작용 효율성과 작업 신뢰성을 향상시킨다. 시나리오 A(카메라 정보를 활용한 실행), B(메모리 기반 1-탭 영상 제작), C(Behavior Cloning 및 Trajectory Replay)에서 연속적 맥락 유지 및 신속한 실행이 가능함을 제시한다. 구체적 수치 벤치마크는 본 문서에 제시되어 있지 않다.

관련 Figure

Diagram
실제 데모에서의 실행 흐름과 한 번의 수행 경로를 드로잉으로 보여주며, 시스템의 엔드투엔드 작동 방식을 이해하도록 돕는다.
Demo 시나리오의 화면 흐름과 한 번의 실행 흐름 예시

기술 상세

전체 아키텍처: Edge-native Android 기반으로 Omni Perception, Omni Memory, Omni Action의 삼중 스택으로 구성. 2) 핵심 메커니즘: Temporal Alignment, VLM 기반 Scene Understanding, OCR/XML 기반 하이브리드 관측, UI 트리와 Deeplink를 이용한 실행 주소 재현. 3) 차별점: 클라우드 의존 최소화, 로컬 메모리로 개인화 강화, Trajectory Replay를 통한 안정성 향상. 4) 구현/학습: 멀티모달 모델 우선 적용 후 메모리 유지/정합, Dumpsys 기반 엔트리 포인트 추적, 스킬 카드로 재사용 가능한 실행 프레임 구축.

관련 Figure

Diagram
특정 앱 내에서의 행동 클로닝 및 재생 흐름을 시각적으로 제시하여 재사용 가능한 스킬 카드를 생성하는 과정을 보여준다.
Meituan 예시의 Behavior Cloning 및 Trajectory Replay 흐름

실무 활용

온-device에서 멀티모달 인지와 메모리 기반 인텔리전스를 활용한 Copilot 스타일의 모바일 어시스턴트를 구현할 수 있다. 프라이버시를 유지하면서 지연 없이 고도화된 자동화를 달성한다.

Camera-informed shopping: 실세계 물품의 가격 확인 등 맥락 기반 검색 자동화
ScreenAvatar: 화면 projections를 이용한 긴 호의 작업 자동화
Memory-driven video editing: 사진 갤러리에서 테마를 추출해 CapCut 등의 앱에 원터치로 연결
Behavior cloning 포털: Meituan 등 특정 앱의 빠른 네비게이션 복제
One-tap task completion: 사전 학습된 Deeplink 루트를 재활용한 원터치 작업

코드 공개 여부: 공개

코드 저장소 보기

키워드

multimodal understandingedge-nativemobile agentOmni PerceptionOmni MemoryOmni Actiontrajectory replaybehavior cloning

추가 이미지 분석

Diagram
실행 중 컨텍스트와 기억 아카이브의 흐름을 보여주며, Working Memory와 Long-term Memory 간의 데이터 흐름과 보안/정제 단계를 시각화한다.
Omni Memory의 런타임 컨텍스트와 장기 메모리 구성도

X-OmniClaw 기술 보고서: 멀티모달 이해와 상호작용을 위한 통합 모바일 에이전트

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

실무 활용

키워드

추가 이미지 분석

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드