핵심 요약
기존 GUI 에이전트는 작업이 길어질수록 메모리 저하와 계산 오류로 인해 성능이 급격히 떨어지는 한계가 있었다. UI-Copilot은 실행과 기억을 분리한 협업 구조를 통해 복잡한 멀티 앱 작업에서 기존 SOTA 모델 대비 압도적인 성능 향상을 입증했다.
왜 중요한가
기존 GUI 에이전트는 작업이 길어질수록 메모리 저하와 계산 오류로 인해 성능이 급격히 떨어지는 한계가 있었다. UI-Copilot은 실행과 기억을 분리한 협업 구조를 통해 복잡한 멀티 앱 작업에서 기존 SOTA 모델 대비 압도적인 성능 향상을 입증했다.
핵심 기여
UI-Copilot 협업 프레임워크
GUI 에이전트가 작업 실행에 집중하는 동안 경량 Copilot 모델이 메모리 검색 및 수치 계산을 전담하는 협업 구조를 도입했다.
Memory Decoupling 메커니즘
지속적인 관찰 정보(Persistent Observations)와 일시적인 실행 컨텍스트(Transient Context)를 분리하여 컨텍스트 과부하와 메모리 저하 문제를 완화했다.
TIPO(Tool-Integrated Policy Optimization)
도구 선택은 단일 턴 감독 학습으로, 작업 실행은 온폴리시(On-policy) 멀티 턴 롤아웃으로 분리하여 최적화하는 강화학습 알고리즘을 개발했다.
핵심 아이디어 이해하기
Transformer 기반 모델의 Self-Attention은 입력 시퀀스가 길어질수록 모든 토큰 간의 관계를 계산해야 하므로 메모리 사용량이 급격히 증가한다. GUI 에이전트의 경우 과거의 모든 실행 기록과 추론 과정을 하나의 컨텍스트 윈도우에 담으려다 보니, 정작 현재 화면에서 필요한 핵심 정보를 놓치는 Memory Degradation 현상이 발생한다.
UI-Copilot은 이를 해결하기 위해 대화 기록에는 간결한 진행 요약(Summary)만 남기고, 상세한 관찰 데이터는 별도의 로컬 지식 베이스(K)에 저장하는 방식을 취한다. 에이전트가 과거 정보가 필요할 때만 Retriever 도구를 호출해 특정 데이터를 가져오게 함으로써 컨텍스트 윈도우를 가볍게 유지한다.
또한 수치 계산 시 발생하는 환각(Hallucination)을 막기 위해 직접 계산하는 대신 Calculator 도구를 호출하여 Python 코드를 실행하도록 설계했다. 결과적으로 에이전트는 복잡한 부가 작업에서 벗어나 현재 화면의 상태를 파악하고 다음 액션을 결정하는 본연의 정책(Policy) 결정에만 집중할 수 있게 된다.
방법론
UI-Copilot은 Qwen2.5VL-7B를 정책 모델로, Qwen3-4B를 Copilot 모델로 사용하는 이중 구조를 채택했다. 정책 모델은 각 단계에서 현재 스크린 상태(St)와 요약된 이력(Ht)을 입력받아 {Calculator, Retriever, None} 중 하나를 선택하거나 직접 GUI 액션을 수행한다.
Memory Decoupling 전략은 전체 추론 과정(Thought)을 대화 기록에서 제거하고 로컬 JSON 파일에 저장한다. 대화 기록에는 'Sub-task A 완료'와 같은 짧은 summary_t만 포함시켜 컨텍스트 길이를 최소화한다. Retriever 호출 시에는 [저장된 지식 K + 현재 지시어 I + 요약 이력] → Mc(Copilot) → [텍스트 결과 Rt] 순으로 연산하여 필요한 정보만 컨텍스트에 주입한다.
TIPO 학습 알고리즘은 도구 호출과 액션 생성을 분리하여 최적화한다. 도구 호출 학습 시에는 정답 도구 T가 주어졌을 때의 로그 확률 log P(T|I)를 최대화하는 방향으로 gradient를 계산한다. 액션 생성 학습 시에는 에이전트가 스스로 생성한 이력(On-policy)을 바탕으로 멀티 턴 롤아웃을 수행하며, 최종 성공 여부에 따른 보상(Reward)을 통해 정책을 갱신한다.
주요 결과
MemGUI-Bench 벤치마크에서 UI-Copilot-7B는 pass@1 기준 16.4%의 정확도를 기록하여 기존 SOTA 모델인 GUI-Owl-7B(6.2%)와 UI-TARS-1.5-7B(3.1%)를 크게 앞질렀다. 특히 4개 이상의 앱을 사용하는 고난도 작업에서 타 모델들이 0%에 가까운 성능을 보일 때 유의미한 성공률을 기록했다.
AndroidWorld 환경에서는 베이스 모델인 Qwen 대비 17.1%의 절대적인 성능 향상을 달성하며 실제 모바일 환경에서의 범용성을 입증했다. Ablation Study 결과, Memory Decoupling과 도구 통합이 모두 적용되었을 때 정확도가 51.5%까지 상승하여 단일 모델 방식(22.1%)보다 두 배 이상의 효율을 보였다.
에러 분석 결과, 기존 모델에서 지배적이었던 진행 혼동(Progress Confusion)과 메모리 저하 문제가 UI-Copilot 적용 시 절반 가까이 감소하는 것으로 나타났다. 이는 TIPO를 통한 온폴리시 학습이 훈련과 추론 사이의 괴리를 성공적으로 메웠음을 의미한다.
기술 상세
UI-Copilot의 핵심은 정책 모델이 도구를 호출할 때 발생하는 Advantage를 별도로 관리하는 것이다. 도구 호출(Tool-calling) 시에는 환경의 피드백 대신 규칙 기반 보상(Rule-based reward)을 사용하여 포맷 준수 여부와 도구 선택의 정확도를 평가한다.
학습 데이터 큐레이션 과정에서 GPT-4o를 활용해 기존 Android Control 데이터셋의 궤적에 도구 호출 컨텐츠와 요약문을 합성하는 Pseudo-labeling 기법을 사용했다. 이를 통해 SFT(Supervised Fine-Tuning)를 위한 초기화 데이터를 확보하고, 이후 RL 단계에서 안정적인 수렴을 유도했다.
추론 시 Copilot 모델(Qwen3-4B)은 Calculator 역할 수행 시 실행 가능한 Python 코드를 생성하며, 이는 별도의 Python Interpreter에서 실행되어 결과값만 정책 모델에 전달된다. 이러한 구조는 모델 내부의 연산 부담을 외부 엔진으로 전이시켜 수치 계산의 정확도를 비약적으로 높인다.
한계점
현재 도구 세트가 Calculator와 Retriever로 제한되어 있어, 웹 검색이나 시각적 크로핑(Visual Cropping)과 같은 더 넓은 범위의 도구가 필요한 실제 GUI 시나리오 대응에는 한계가 있다.
실무 활용
긴 단계의 작업이 필요한 모바일 앱 자동화나 복잡한 수치 비교가 포함된 쇼핑/금융 에이전트 구축에 즉시 활용 가능하다.
- 여러 쇼핑 앱을 돌아다니며 특정 제품의 사양과 가격을 비교하여 최적의 옵션을 계산하는 구매 대행 에이전트
- 이전 단계에서 확인한 인증번호나 설정값을 기억해 두었다가 나중에 입력해야 하는 복잡한 회원가입/설정 자동화
- 주식 앱에서 여러 종목의 현재가를 조회한 뒤 특정 공식에 따라 합산 가치를 계산해 보고하는 금융 비서
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.