핵심 요약
스마트폰 에이전트가 여러 앱을 오가며 복잡한 심부름을 할 때 앞선 단계의 정보를 잊어버리는 고질적인 문제를 해결한다. 단순히 과거를 요약하는 대신 핵심 이정표를 인과관계로 연결해 기억함으로써, 수십 단계가 넘는 긴 작업도 실수 없이 완수할 수 있는 기술적 토대를 마련했다.
왜 중요한가
스마트폰 에이전트가 여러 앱을 오가며 복잡한 심부름을 할 때 앞선 단계의 정보를 잊어버리는 고질적인 문제를 해결한다. 단순히 과거를 요약하는 대신 핵심 이정표를 인과관계로 연결해 기억함으로써, 수십 단계가 넘는 긴 작업도 실수 없이 완수할 수 있는 기술적 토대를 마련했다.
핵심 기여
AndroTMem-Bench 구축
50개 앱, 1,069개 작업, 총 34,473단계의 상호작용을 포함하는 대규모 안드로이드 GUI 벤치마크를 제작했다. 각 작업은 평균 32단계의 긴 호흡을 가지며 단계 간 강한 인과적 의존성을 갖도록 설계됐다.
기억력 병목 현상 진단
에이전트의 성능 저하가 단순한 화면 인식 오류나 개별 행동 실수 때문이 아니라, 과거의 핵심 상태를 유지하고 적절히 불러오지 못하는 상호작용 메모리의 실패에서 기인함을 실험적으로 입증했다.
Anchored State Memory (ASM) 제안
상호작용 이력을 인과관계로 연결된 핵심 상태(Anchor)들의 집합으로 구조화하여 저장하는 새로운 메모리 메커니즘을 제안했다. 이를 통해 필요한 시점에 정확한 과거 정보를 인출할 수 있다.
성능 및 효율성 개선
12종의 최신 모델에서 ASM 적용 시 작업 완료율(TCR)이 5%에서 30.16%까지 향상되었으며, 전체 이력을 모두 입력하는 방식 대비 토큰 사용량을 대폭 절감했다.
핵심 아이디어 이해하기
기존 GUI 에이전트는 과거의 모든 스크린샷과 행동을 그대로 입력하거나 짧게 요약하여 다음 행동을 결정한다. 하지만 작업이 길어지면 전체 이력은 너무 많은 정보로 인해 모델의 주의력을 분산시키고, 요약본은 나중에 꼭 필요한 세부 수치나 상태 정보를 누락시키는 딜레마에 빠진다. Transformer의 Attention 메커니즘이 시퀀스가 길어질수록 핵심 정보에 집중하기 어려워지는 한계와 유사하다.
이 논문은 모든 과거를 기억하는 대신 '인과적 의존성'이 있는 지점만 기억하는 방식을 택했다. 예를 들어 쇼핑 앱에서 가격을 비교하고 메신저로 공유하는 작업에서 '최저가 수치'는 수십 단계 뒤의 공유 단계에서 반드시 필요한 앵커이다. ASM은 이러한 핵심 상태를 이정표처럼 저장하고 이들 사이의 논리적 연결고리를 그래프 형태로 관리한다.
결과적으로 에이전트는 수만 개의 토큰을 다 뒤지는 대신, 현재 상황과 논리적으로 연결된 앵커들만 골라내어 정확한 의사결정을 내린다. 이는 딥러닝의 Embedding 공간에서 유사한 벡터를 검색하는 것과 유사하지만, 단순 유사도가 아닌 '인과 관계'라는 논리적 뼈대를 사용해 기억의 정확도를 극대화한 점이 차별점이다.
방법론
ASM은 상호작용 궤적 에서 핵심 상태 앵커 를 추출한다. [상태와 행동의 쌍을 입력으로] → [시간 순서대로 나열하여] → [궤적 데이터를 얻고] → [이는 에이전트의 전체 활동 이력을 의미한다]. 각 앵커 는 타입, 내용, 근거, 연결고리의 4요소로 구성된다. [궤적 데이터를 입력으로] → [LLM이 의미 있는 변화를 감지하여 앵커를 생성하는 연산을 수행해] → [구조화된 앵커 집합을 얻고] → [이는 압축되었지만 정보가 보존된 핵심 기억 저장소가 된다].
에이전트는 '검색-추론-업데이트' 루프를 수행한다. [현재 UI 와 메모리 뱅크 을 입력으로] → [현재 목표에 필요한 앵커 를 검색하는 연산을 거쳐] → [행동 를 결정하고] → [결정된 행동은 논리적 일관성을 갖춘 결과물이 된다]. 앵커 간의 Causal Link는 특정 행동의 전제 조건이나 결과를 명시하여 에이전트가 복잡한 단계에서도 길을 잃지 않게 한다.
주요 결과
AndroTMem-Bench 평가 결과, Gemini-3-Flash가 AMS 46.14%, TCR 55.21%로 가장 높은 성능을 보였으나 여전히 개선의 여지가 큼을 확인했다. 특히 작업 단계가 60단계 이상으로 길어질수록 모든 모델의 성능이 급격히 하락하는 메모리 병목 현상이 관찰되었다.
ASM 기법을 적용했을 때 GPT-4o의 경우 TCR이 11.75%에서 17.72%로, Gemini-2.5-Pro는 41.11%에서 63.40%로 크게 향상되었다. 이는 단순 요약 방식보다 월등한 결과이며, 특히 여러 앱을 오가는 복잡한 작업에서 효과가 두드러졌다.
효율성 분석 결과, ASM은 전체 이력을 모두 사용하는 방식 대비 토큰 사용량을 Gemini-3-Flash 기준 약 60% 절감했다. 추론 시간 또한 요약 방식과 비슷한 수준을 유지하면서도 정확도는 훨씬 높아 효율성과 효과성 사이의 최적의 균형점을 찾았음이 증명됐다.
실무 활용
스마트폰이나 PC에서 여러 앱을 넘나들며 복잡한 업무를 수행하는 차세대 AI 비서 시스템의 핵심 기억 장치로 활용 가능하다. 긴 작업 과정에서 발생하는 정보 손실을 막아 실무 적용 수준의 신뢰성을 확보할 수 있다.
- 여러 쇼핑 앱의 가격을 비교한 뒤 최저가 제품을 장바구니에 담고 결제까지 진행하는 구매 대행
- 메신저, 이메일, 캘린더 앱을 오가며 회의 일정을 조율하고 관련 자료를 취합하여 공유하는 비서 업무
- 복잡한 시스템 설정 변경이나 앱 간 데이터 전송이 필요한 기술 지원 자동화
기술 상세
ASM 아키텍처는 비정형 상호작용 이력을 정형화된 앵커 그래프로 변환하는 것이 핵심이다. 앵커 타입은 SUBGOAL(하위 목표 달성), STATE_CHANGE(화면 전이), DEPENDENCY(데이터 의존성), EXCEPTION(예외 처리), CONTEXT_INFO(전역 맥락), FINISH(완료)의 6종으로 정의되어 작업 흐름을 다각도에서 포착한다.
Causal Link Generation 과정에서 모델은 단순히 시간 순서가 아닌, '전제 조건(prerequisite)', '가능하게 함(enables)', '결과(result_of)' 등의 논리적 관계를 식별하도록 유도된다. 이는 에이전트가 특정 행동을 하기 전 필요한 정보가 무엇인지 명확히 인지하게 만든다.
평가 지표로 도입된 TCR(Task Complete Rate)은 최종 상태뿐만 아니라 중간 앵커들의 인과적 만족 여부를 함께 검증한다. 이는 에이전트가 우연히 성공한 것이 아니라 논리적으로 올바르게 수행했는지를 측정하는 엄격한 기준을 제공한다.
구현 측면에서는 모델에 무관한(Model-agnostic) 프롬프팅 프로토콜을 사용하여 다양한 MLLM에 범용적으로 적용 가능하도록 설계되었다. 또한 엄격한 스키마 강제와 자동 재시도 메커니즘을 통해 구조화된 데이터 생성의 안정성을 높였다.
한계점
현재는 단일 세션 내의 작업 메모리에 집중하고 있어, 며칠에 걸쳐 진행되거나 중단 후 재개되는 교차 세션(cross-session) 작업은 다루지 못한다. 또한 고정된 앱 상태를 가정하고 있어 동적으로 변하는 환경에서의 대응 능력은 추가 연구가 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료