Video2GUI: 일반화된 GUI 에이전트 프리트레이닝을 위한 대규모 GUI 상호작용 궤적 합성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

GUI 에이전트의 일반화 능력은 훈련 데이터의 규모와 다양성에 크게 의존한다. 본 연구는 unlabeled Internet videos에서 GUI 상호작용 궤적을 자동으로 추출하는 Video2GUI 파이프라인을 제안하고, 이를 통해 WildGUI 데이터셋을 구축하여 GUI grounding 및 에이전트 벤치마크에서 일관된 성능 향상을 달성한다. 12.7M GUI 운용 궤적과 124.5M 스크린샷으로 구성된 대규모 데이터는 다양한 애플리케이션과 웹사이트를 포괄한다.

왜 중요한가

핵심 기여

Video2GUI 프레임워크 제안

대규모 unlabeled 웹 비디오에서 GUI 상호작용 궤적을 자동으로 생성하는 완전한 자동화 파이프라인을 제안한다. 메타데이터 기반의 coarse filtering과 시각 점수 기반의 fine filtering을 결합하여 고품질 GUI 튜토리얼 비디오를 선별한다.

WildGUI 데이터셋 구축

500M 개 비디오 메타데이터에서 시작해 12.7M GUI 운영 궤적과 124.5M 스크린샷을 포함하는 대규모 GUI 프리트레이닝 데이터셋 WildGUI를 구성한다.

대규모 프리트레이닝 효과

WildGUI를 이용한 continual pre-training으로 Qwen2.5-VL 및 Mimo-VL의 GUI grounding 및 에이전트 벤치마크 성능을 일관되게 개선하고, state-of-the-art에 근접하거나 초과하는 성과를 달성한다.

후속 데이터 정제 및 평가 프로토콜

Gemini-3-Pro 기반의 트래젝토리 추출과 multi-frame grounding 전략, 4분 단위 세그먼트 기반 주석으로 긴 호라이즌 태스크를 효과적으로 다룬다.

실용적 파이프라인 공개

WildGUI 데이터셋과 Video2GUI 파이프라인을 공개하여 후속 연구의 재현성과 확장을 용이하게 한다.

핵심 아이디어 이해하기

단계적 출발점: GUI 에이전트는 입력으로 자연어 지시(u)와 환경 상태(s)에서의 상호작용을 통해 목표를 달성하는 정책을 학습한다. 기존 데이터는 수작업 라벨링이나 시뮬레이션에 의존해 스케일·다양성에 한계가 있었다. 이 논문은 기초 개념(anchor)으로 GUI grounding과 action grounding의 필요성을 확인하고, 이를 인터넷 규모의 비디오에서 자동으로 추출하는 방법을 제시한다.

방법론

단계 1: 전체 접근 방식과 핵심 아이디어 - Video2GUI는 대규모 인터넷 비디오에서 GUI 트랙션 데이터를 자동으로 추출하는 파이프라인이다. 단계 2: 메타 정보 분류 및 비디오 품질 점수화 - 500M+ 비디오의 메타데이터를 메타 정보 분류기(Qwen2.5-7B 기반)로 선별하고 Gemni-3-Pro를 이용해 첫 분기에서 4분 내 비디오를 샘플링한다. 비디오 품질 스코어링은 Topic Relevance, Instruction Clarity, Recording Quality의 3차원으로 평가되며, 200시간 샘플에 대해 라벨링 후 Qwen2.5-Omni로 확장 학습한다.

주요 결과

3단계 데이터 생성 파이프라인으로 20M 비디오 중 4.16M 비디오를 고품질 GUI 튜토리얼 콘텐츠로 유지한다. WildGUI는 12.7M GUI 운용 궤적과 124.5M 스크린샷을 포함하며 1,500개 이상 애플리케이션/웹사이트를 포괄한다. 벤치마크에서 WildGUI 사전학습 모델은 OSWorld-G에서 평균 67.6의 중심 정확도, ScreenSpot-Pro에서 평균 56.9의 중심 정확도 등을 달성하며, AndroidWorld/OSWorld의 온라인 평가에서도 현저한 개선이 나타난다. 또한 데이터 스케일링이 성능 증가와 강한 양의 상관관계를 보인다.

기술 상세

아키텍처 구성: Video2GUI는 (1) coarse-to-fine 비디오 필터링, (2) Trajectory Extraction, (3) Action Spatial Grounding의 3단계 파이프라인으로 구성된다. 수식 기반 손실은 Lpretrain = Lground + Laction + Ltraj이며, 각 항은 각각 GUI 대상 위치 예측, 단일 샷에서의 동작 예측, 시퀀스 내 다중 턴 상호작용의 자동회귀를 포함한다. 메타 정보 분류기는 DeepSeek-V3의 어노테이션으로 라벨링하고 10K 샘플에서 Positive 비율을 맞추기 위해 upsampling을 수행한다. Trajectory Extraction은 4분 단위 세그먼트로 분할된 비디오에서 Task Instruction, Dense Caption, Task Plan 등을 출력하고, Grounding은 t 시점의 ot−0.5s, ot, ot+0.5s의 프레임에서 Gemini-3-Pro를 이용해 bt(grounding target)로 매핑한다. Grounding의 Feasibility는 실제 화면에서 타깃 요소의 존재 여부를 판단하며, 세 프레임 중 첫 성공 프레임의 grounding 결과를 최종으로 선택한다. 토픽-grounding 및 자가-회귀 기반의 다단계 목표 달성 학습으로 Lground, Laction, Ltraj를 함께 최적화한다. 데이터 규모에 따른 학습 구성은 Stage 1: WildGUI에서 Continual Pre-training(약 200B 토큰), Stage 2: Open-source 데이터로 3에포크의 Post-training(약 15B 토큰)로 구성된다. 토큰 수, 학습률, 그리고 비전 인코더의 학습률은 Stage별로 구체적으로 제시되며 Megatron 프레임워크를 이용한 분산 학습으로 구현된다.

실무 활용

WildGUI를 통한 GUI 에이전트의 일반화 및 실용적 프리트레이닝 파이프라인을 제공한다.

Cross-platform GUI automation 학습 데이터로 활용
GUI grounding 및 action 예측 모델의 프리트레이닝 데이터로 활용
다중 언어/다국어 GUI 태스크의 일반화 연구에 활용

코드 공개 여부: 공개

코드 저장소 보기

키워드

GUI groundinginteraction trajectoriesWildGUIVideo2GUIunlabeled Internet videoscoarse-to-fine filteringmulti-frame groundingpre-trainingOSWorldScreenSpot-Pro