핵심 요약
기존의 컴퓨터 사용 에이전트는 모든 작업 단계에서 고비용의 대형 모델을 호출하여 비효율적이었으나, 이 논문은 위험 상황에서만 대형 모델을 호출하는 이벤트 기반 계층 구조를 통해 성능 저하 없이 비용과 지연 시간을 대폭 줄였다. 특히 에이전트의 반복 루프와 목표 이탈을 감지하는 전용 모니터를 도입하여 실무 적용 가능성을 높였다.
왜 중요한가
기존의 컴퓨터 사용 에이전트는 모든 작업 단계에서 고비용의 대형 모델을 호출하여 비효율적이었으나, 이 논문은 위험 상황에서만 대형 모델을 호출하는 이벤트 기반 계층 구조를 통해 성능 저하 없이 비용과 지연 시간을 대폭 줄였다. 특히 에이전트의 반복 루프와 목표 이탈을 감지하는 전용 모니터를 도입하여 실무 적용 가능성을 높였다.
핵심 기여
이벤트 기반 단계별 모델 계층 구조
기본적으로 소형 모델이 작업을 수행하다가 위험이 감지될 때만 대형 모델로 전환하는 Step-level Cascade 방식을 도입하여 연산 자원을 효율적으로 배분한다.
Stuck Monitor 및 Milestone Monitor 개발
에이전트가 동일 동작을 반복하는 Progress Stalls를 감지하는 Stuck Monitor와 의미 있는 체크포인트를 식별하여 목표 이탈을 확인하는 Milestone Monitor를 제안한다.
플러그 앤 플레이 방식의 모듈형 프레임워크
기존 에이전트의 아키텍처를 변경하거나 대형 모델을 재학습시킬 필요 없이 상단에 레이어로 추가하여 즉시 적용 가능한 구조를 설계했다.
핵심 아이디어 이해하기
컴퓨터 사용 에이전트는 화면을 보고 클릭이나 타이핑을 수행하는데, 모든 단계가 동일하게 어렵지는 않다. 단순한 페이지 이동이나 반복적인 입력은 소형 모델로도 충분하지만, 에이전트가 같은 곳을 맴돌거나(Stuck) 겉보기엔 멀쩡해 보여도 원래 목표에서 벗어나는(Semantic Drift) 순간이 핵심적인 위험 구간이다.
이 논문은 에이전트의 최근 행동 이력인 Embedding 시퀀스를 분석하여 이러한 위험 징후를 포착한다. Stuck Monitor는 최근 K개의 행동이 유의미한 상태 변화를 일으키지 못할 때 활성화되어 대형 모델에게 복구를 요청한다. Milestone Monitor는 작업의 중간 목표가 달성된 시점을 예측하여, 그 시점에만 대형 모델이 현재까지의 진행 상황이 올바른지 검증하게 한다.
결과적으로 모든 단계에서 고가의 대형 모델을 사용하는 대신, 필요한 순간에만 '주치의'를 부르는 것과 같은 원리로 작동한다. 이를 통해 전체 작업의 성공률은 유지하면서도 불필요한 연산 낭비를 막아 실제 서비스 운영 환경에서의 경제성을 확보했다.
방법론
전체 시스템은 소형 정책 모델(Small Policy)과 두 개의 경량 모니터(Stuck, Milestone), 그리고 검증 및 복구를 담당하는 대형 정책 모델(Large Policy)로 구성된다. 소형 모델이 기본 제어권을 가지며 매 단계 행동을 생성한다.
Stuck Monitor는 최근 K개의 추론-행동 쌍인 wt = {(rt-K+1, at-K+1), ..., (rt, at)}를 입력으로 받아 ModernBERT 인코더를 통해 스칼라 점수 p_stuck을 출력한다. 이 점수가 임계값 θs를 넘으면 에이전트가 루프에 빠진 것으로 판단하여 즉시 대형 모델로 제어권을 넘긴다.
Milestone Monitor는 작업 설명 u와 행동 이력 wt를 입력으로 받아 p_mile 점수를 계산한다. 점수가 θm을 넘으면 현재 상태의 스크린샷과 이전 이력을 포함한 '마일스톤 패킷'을 생성하여 대형 모델에게 전달한다. 대형 모델은 (1) 진행의 타당성과 (2) 의도 일관성을 검증하며, 검증 실패 시 대형 모델이 직접 개입하여 경로를 수정한다.
관련 Figure

소형 모델이 기본 행동을 수행하다가 Stuck Event나 Milestone Event가 발생하면 대형 모델이 검증 및 복구를 수행하는 흐름을 시각화한다. 이를 통해 이벤트 기반의 동적 연산 할당 구조를 한눈에 이해할 수 있다.
소형 모델, Stuck/Milestone 모니터, 대형 모델 간의 상호작용을 보여주는 전체 파이프라인 다이어그램
주요 결과
OSWorld 벤치마크에서 Qwen3-VL-8B와 Kimi K2.5를 결합한 결과, 단독 대형 모델 대비 성공률은 60.1%에서 59.3%로 거의 유지하면서도 비용은 대폭 절감했다. 특히 EvoCUA-8B와 Kimi K2.5 조합은 비용을 61.4% 절감하면서도 Claude Sonnet 4.5 단독 성능을 상회하는 효율성을 보였다.
WebArena 실험에서는 추론 비용을 최대 74.6%까지 줄였으며, 지연 시간(Latency)은 45.8% 감소했다. Ablation Study 결과, Stuck Monitor는 반복 오류 복구에 기여하고 Milestone Monitor는 보이지 않는 의미적 이탈을 잡아내는 데 상호 보완적인 역할을 수행함이 입증됐다.
기술 상세
본 연구는 에이전트의 실패 모드를 Progress Stalls와 Silent Semantic Drift로 정교하게 분류하고 이를 해결하기 위한 이벤트 기반 추론 제어 아키텍처를 제안한다. 모니터링 모델로 ModernBERT-base(149M)를 사용하여 추론 오버헤드를 최소화했다.
데이터 구축을 위해 300개의 GUI 에이전트 궤적을 수집하고 GPT-5.2를 교사 모델로 활용하여 각 단계의 Stuck 여부와 Milestone 여부를 라벨링했다. 학습 시에는 클래스 불균형을 해결하기 위해 Inverse-frequency Class Weighting을 적용한 Cross-entropy Loss를 사용했다.
제어 로직에서는 Hysteresis와 Bounded Recovery Budgets 개념을 도입하여 모델 간 잦은 전환(Thrashing)을 방지하고 안정적인 제어권 이양을 보장한다. 대형 모델로 전환 시 소형 모델의 이력을 재직렬화(Re-serialization)하여 컨텍스트 손실 없이 작업을 이어가도록 설계했다.
한계점
논문은 모니터링 모델이 텍스트 기반의 추론 및 행동 이력에만 의존하므로, 시각적 정보 없이는 감지하기 어려운 미세한 GUI 변화나 오류를 놓칠 수 있다는 점을 한계로 언급한다.
실무 활용
실제 운영 체제나 웹 환경에서 장기적인 작업을 수행하는 AI 에이전트 서비스의 운영 비용과 응답 속도를 획기적으로 개선할 수 있는 기술이다.
- 엔터프라이즈 워크플로 자동화 도구의 API 비용 최적화
- 실시간 응답이 중요한 개인용 AI 비서의 지연 시간 단축
- 복잡한 GUI 테스트 자동화 시스템의 안정성 및 효율성 강화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.