핵심 요약
컴퓨터 사용 에이전트(Computer-Using Agents, CUAs)의 능력이 점차 향상되고 있지만, 에이전트의 궤적이 사용자 지시를 실제로 완수했는지에 대한 평가를 확장하는 것은 여전히 어려운 과제입니다. 본 연구에서는 에이전트의 내부 추론이나 행동에 의존하지 않고, 에이전트 궤적의 주요 프레임 시퀀스인 실행 비디오(Execution Video)로부터 보상 모델링(Reward Modeling)을 수행하는 방법을 연구합니다. 비디오 실행 모델링은 방법론에 구애받지 않는(Method-agnostic) 장점이 있지만, 매우 중복된 레이아웃과 성공 여부를 결정짓는 미세하고 국소적인 단서들이라는 주요 과제를 안고 있습니다. 연구진은 53,000개의 고품질 비디오-작업-보상 쌍으로 구성된 ExeVR-53k(Execution Video Reward 53k) 데이터셋을 소개합니다. 또한, 단계별 주석이 포함된 부정적 샘플을 합성하기 위해 적대적 지시 번역(Adversarial Instruction Translation)을 제안합니다. 길고 고해상도인 실행 비디오로부터의 학습을 가능하게 하기 위해, 결정적인 UI 변화를 보존하면서 균일한 영역과 지속적인 토큰을 제거하는 시공간 토큰 프루닝(Spatiotemporal Token Pruning) 기법을 설계했습니다. 이러한 구성 요소를 바탕으로 사용자 지시와 비디오 실행 시퀀스만을 입력받아 작업 성공을 예측하는 실행 비디오 보상 모델인 ExeVRM(Execution Video Reward Model)을 미세 조정(Fine-tuning)했습니다. ExeVRM 8B 모델은 비디오 실행 평가에서 84.7%의 정확도와 87.7%의 재현율(Recall)을 기록하며, Ubuntu, macOS, Windows, Android 전반에 걸쳐 GPT-5.2 및 Gemini-3 Pro와 같은 강력한 상용 모델을 능가하는 동시에 더 정밀한 시간적 귀인(Temporal Attribution)을 제공합니다. 이러한 결과는 비디오 실행 보상 모델링이 컴퓨터 사용 에이전트를 위한 확장 가능하고 모델에 구애받지 않는 평가 도구로 활용될 수 있음을 보여줍니다.
핵심 기여
ExeVR-53k 대규모 데이터셋 구축
53,000개의 비디오-작업-보상 트리플렛을 포함하는 고품질 데이터셋을 구축하여 비디오 기반 보상 모델 학습을 위한 표준 데이터를 제공함.
적대적 지시 번역을 통한 부정 샘플 생성
단계별 주석이 포함된 정교한 부정적 샘플을 합성하는 기법을 도입하여 모델이 미세한 작업 실패 원인을 식별할 수 있도록 학습함.
효율적인 시공간 토큰 프루닝 기법
고해상도 비디오 데이터에서 UI의 정적인 부분과 중복 토큰을 제거하고 핵심적인 변화만 보존하여 긴 실행 영상의 처리 효율을 개선함.
고성능 ExeVRM 8B 모델 개발
사용자 지시와 실행 영상만으로 성공 여부를 판단하는 모델을 개발하여 GPT-5.2 등 최신 상용 모델보다 우수한 평가 성능을 입증함.
방법론
ExeVRM은 에이전트의 실행 과정을 담은 키프레임 시퀀스와 사용자 지시문을 입력으로 받아 성공 여부를 이진 분류한다. 시공간 토큰 프루닝(Spatiotemporal Token Pruning)을 적용하여 UI의 불필요한 영역을 제거하고, 적대적 지시 번역으로 생성된 세밀한 부정적 데이터를 활용해 모델의 판별력을 높였다.
주요 결과
ExeVRM 8B 모델은 비디오 실행 평가에서 84.7%의 정확도와 87.7%의 재현율을 기록했다. 이는 GPT-5.2 및 Gemini-3 Pro를 상회하는 성능이며, Ubuntu, macOS, Windows, Android 등 4가지 주요 플랫폼에서 일관되게 높은 성능과 정밀한 시간적 귀인 능력을 보여주었다.
시사점
에이전트의 내부 로직에 접근할 필요 없이 시각적 결과만으로 성능을 평가할 수 있는 공정한 벤치마크 도구로 활용된다. 강화학습 과정에서 실시간 보상 신호를 제공하여 에이전트의 학습 효율을 극대화하고 다양한 OS 환경에서의 범용성을 보장한다.
키워드
섹션별 상세
ExeVR-53k 대규모 데이터셋 구축
적대적 지시 번역을 통한 부정 샘플 생성
효율적인 시공간 토큰 프루닝 기법
고성능 ExeVRM 8B 모델 개발
AI 요약 · 북마크 · 개인 피드 설정 — 무료