핵심 요약
컴퓨터 사용 에이전트(CUA)의 성능을 평가할 때 기존의 수동 스크립트 방식에서 벗어나, 실행 비디오만으로 성공 여부를 판단하는 확장 가능한 자동 평가 체계를 제시한다. 특히 고해상도 UI 비디오의 중복성을 제거하는 기술을 통해 긴 작업 과정도 효율적으로 학습하고 평가할 수 있게 한다.
왜 중요한가
컴퓨터 사용 에이전트(CUA)의 성능을 평가할 때 기존의 수동 스크립트 방식에서 벗어나, 실행 비디오만으로 성공 여부를 판단하는 확장 가능한 자동 평가 체계를 제시한다. 특히 고해상도 UI 비디오의 중복성을 제거하는 기술을 통해 긴 작업 과정도 효율적으로 학습하고 평가할 수 있게 한다.
핵심 기여
ExeVR-53k 데이터셋 구축
53,000개의 고품질 비디오-작업-보상 트리플렛을 포함하는 대규모 데이터셋을 공개하여 CUA 평가 연구의 기반을 마련했다.
적대적 지시문 번역 기법 제안
성공한 비디오에 대해 의도적으로 틀린 지시문을 생성하여 모델이 미세한 차이를 구분하도록 돕는 하드 네거티브 샘플 생성 기법을 도입했다.
시공간 토큰 프루닝 알고리즘 개발
UI 비디오의 정적인 배경과 변화 없는 프레임을 제거하여 연산 효율을 높이면서도 중요한 UI 변화는 보존하는 STP 및 TTP 기술을 개발했다.
ExeVRM 모델의 우수한 성능 입증
Qwen3-VL 기반의 8B 모델로 Ubuntu, macOS, Windows, Android 등 다양한 환경에서 GPT-5.2 및 Gemini-3 Pro를 뛰어넘는 평가 성능을 기록했다.
핵심 아이디어 이해하기
기존 CUA 평가는 특정 환경에 종속된 스크립트나 내부 로그에 의존하여 범용성이 떨어졌다. 특히 UI 환경은 배경이 정적이고 변화가 미세하여, 일반적인 비디오 모델이 성공 여부를 결정짓는 결정적 단서인 클릭이나 텍스트 수정 등을 포착하기 어렵다. Transformer의 Attention Mechanism은 모든 토큰 간의 관계를 계산하므로 고해상도 UI 비디오를 그대로 입력하면 연산량이 폭증하는 한계가 있다.
이 논문은 에이전트의 내부 사고 과정이 아닌, 겉으로 드러나는 실행 비디오 자체를 보상 모델의 입력으로 사용한다. 이때 시공간 토큰 프루닝을 통해 중복된 픽셀과 프레임을 제거함으로써, 모델이 중요한 UI 상태 변화에만 집중할 수 있도록 설계했다. 이는 정보 밀도가 낮은 배경 토큰을 제거하여 유효 시퀀스 길이를 줄이고, 모델이 결정적인 시각적 증거에 더 많은 연산 자원을 할당하게 만든다.
결과적으로 모델은 긴 시간 동안 이어지는 복잡한 작업에서도 어느 시점에서 오류가 발생했는지 정확히 짚어낼 수 있게 된다. 이는 단순한 성공 여부 판단을 넘어 에이전트의 성능 개선을 위한 정밀한 시간적 피드백(Temporal Attribution)을 가능하게 하며, 다양한 운영체제와 에이전트 설계에 구애받지 않는 보편적인 평가 도구로서 기능한다.
방법론
ExeVR-53k 데이터셋은 AgentNet, ScaleCUA, OSWorld 등 다양한 소스에서 수집된 53,000개의 궤적을 통합하여 구축됐다. 각 궤적은 단계별 키프레임으로 분할되어 1 FPS의 비디오 요약본으로 변환된다. 적대적 지시문 번역은 GPT-5.2를 사용하여 성공한 비디오에 대해 그럴듯하지만 틀린 지시문을 생성한다. [비디오 궤적 입력 → VLM 연산 → 불일치 지시문 및 오류 발생 시점 출력] 과정을 통해 모델 학습에 필요한 대조 학습 데이터를 확보한다.
공간 토큰 프루닝(STP)은 각 프레임 내에서 시각적으로 유사한 영역을 그래프로 연결하고 임계값 이상의 큰 컴포넌트를 제거한다. [패치 특징값 입력 → 유사도 기반 그래프 생성 → 배경 패치 마스킹 → 핵심 UI 요소 보존] 순으로 작동하여 툴바나 배경화면 같은 정적 요소를 걸러낸다.
시간 토큰 프루닝(TTP)은 이전 프레임과 코사인 유사도가 높은 토큰을 제거한다. [현재 프레임 토큰과 참조 토큰 비교 → 유사도 계산 → 변화 없는 토큰 제거 → 상태 전이 강조] 과정을 거쳐 시퀀스 길이를 압축한다. 최종적으로 STP와 TTP가 공통으로 선택한 토큰만 남겨 모델의 입력으로 사용하며, 이는 고해상도(720p) 비디오 학습을 가능하게 하는 핵심 동력이 된다.
주요 결과
ExeVR-Bench 실험 결과, ExeVRM 8B 모델은 84.7%의 정확도와 87.7%의 재현율(Recall)을 기록했다. 이는 Seed-2.0 Pro(80.3%/74.7%) 및 GPT-5.2(75.0%/66.5%)와 같은 강력한 상용 모델을 크게 앞지르는 수치이다. 특히 Android 환경에서는 상용 모델 대비 최대 11% 이상의 정확도 향상을 보였다.
시간적 속성(Temporal Attribution) 평가에서 tIoU 점수 0.3332를 달성하여, 오류가 발생한 정확한 시간 범위를 찾아내는 능력이 기존 모델들(최고 0.2494)보다 월등히 뛰어남을 입증했다. 이는 모델이 단순히 최종 결과만 보는 것이 아니라 비디오의 흐름을 정확히 이해하고 있음을 나타낸다.
Ablation Study를 통해 720p 고해상도 입력과 STP+TTP 조합이 360p 저해상도 모델보다 높은 성능을 내면서도 메모리 사용량을 효율적으로 관리할 수 있음을 확인했다. STP만 사용했을 때보다 TTP를 함께 사용했을 때 정확도와 재현율의 균형이 가장 잘 잡히는 것으로 나타났다.
기술 상세
ExeVRM은 Qwen3-VL-8B-Instruct 아키텍처를 기반으로 하며, 비전 인코더와 프로젝터는 고정(Freeze)한 채 LLM 파라미터만 파인튜닝하는 전략을 취한다. 이는 시각적 특징 추출 능력은 유지하면서 UI 맥락에 맞는 추론 능력만 최적화하기 위함이다.
STP 메커니즘은 ShowUI에서 영감을 받아 프레임별 UI 연결 그래프를 생성한다. 패치 간 특징 거리가 τs 미만인 이웃 노드를 연결하고, Union-Find 알고리즘으로 추출된 거대 컴포넌트를 배경으로 간주해 제거한다. τs=0.3, τlarge=40 설정을 통해 미세한 UI 요소는 남기고 넓은 배경만 효과적으로 제거한다.
TTP는 각 공간 위치 i에 대해 참조 토큰을 유지하며, 현재 프레임의 토큰과 코사인 유사도가 τt(0.9999)를 초과하면 중복으로 판단해 드롭한다. 이를 통해 커서 이동이나 메뉴 팝업 같은 미세한 상태 변화만 남기고 정적인 프레임 구간을 압축한다.
학습 시 8개의 NVIDIA A100(80GB) GPU를 사용했으며, 코사인 스케줄러와 5e-6의 학습률을 적용했다. 최대 100프레임의 비디오를 720p 해상도로 처리할 수 있는 효율성을 확보하여, 기존 모델들이 고해상도 처리 시 겪던 메모리 부족(OOM) 문제를 해결했다.
한계점
매우 긴 호흡의 작업 중 발생하는 탐색적 시도(Trial-and-error)를 실패로 오인할 수 있는 한계가 있다. 또한 현재는 결과 중심의 보상 모델(ORM) 형태이므로, 중간 과정의 논리적 타당성을 평가하는 프로세스 보상 모델(PRM)로의 확장이 필요하다.
실무 활용
다양한 OS 환경에서 작동하는 컴퓨터 사용 에이전트의 성능을 자동으로 검증하고, 실패 지점을 정확히 찾아내어 디버깅 피드백을 제공하는 데 즉시 활용 가능하다.
- 멀티 OS 환경에서의 자율 에이전트 벤치마킹 자동화
- 에이전트 학습을 위한 고품질 보상 신호 생성 및 강화학습 적용
- 에이전트 실패 사례 분석 및 학습 데이터 정제 도구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.