핵심 요약
최신 대형 언어 모델은 웹 탐색 능력이 뛰어나지만 높은 비용과 API 의존성 때문에 로컬 배포가 어렵다. 이 논문은 인간의 주석 작업 역할을 모방한 구조화된 데이터 생성 프레임워크를 통해, 9B 파라미터의 소형 모델만으로도 폐쇄형 모델인 GPT-4o나 Claude 3.5 Sonnet보다 뛰어난 웹 에이전트 성능을 구현할 수 있음을 입증했다.
왜 중요한가
최신 대형 언어 모델은 웹 탐색 능력이 뛰어나지만 높은 비용과 API 의존성 때문에 로컬 배포가 어렵다. 이 논문은 인간의 주석 작업 역할을 모방한 구조화된 데이터 생성 프레임워크를 통해, 9B 파라미터의 소형 모델만으로도 폐쇄형 모델인 GPT-4o나 Claude 3.5 Sonnet보다 뛰어난 웹 에이전트 성능을 구현할 수 있음을 입증했다.
핵심 기여
AGENT-AS-ANNOTATORS 프레임워크
인간의 데이터 주석 역할을 Persona Generator, Task Generator, Agent, Judge라는 4가지 LLM 모듈로 대체하여 고품질의 웹 에이전트 학습용 궤적 데이터를 생성하는 체계적인 구조를 제안했다.
A3-SYNTH 데이터셋 구축
Gemini 3 Pro를 교사 모델로 사용하여 6개의 웹 환경에서 생성된 3,000개의 작업 중 엄격한 필터링을 통과한 2,322개의 성공적인 궤적(16,353개 학습 예시)을 포함하는 데이터셋을 구축했다.
소형 모델의 SOTA 성능 달성
A3-SYNTH로 미세 조정된 Qwen3.5-9B 모델은 WebArena 벤치마크에서 41.5%의 성공률을 기록하며, 기존 오픈소스 최고 기록(21.7%)을 두 배 가까이 경신하고 GPT-4o(31.5%)를 압도했다.
미학습 환경에 대한 강력한 일반화
학습 과정에서 전혀 본 적 없는 기업용 플랫폼인 WorkArena L1에서 성공률이 18.2%p 상승하는 등 다양한 미학습 벤치마크에서도 일관된 성능 향상을 보였다.
핵심 아이디어 이해하기
기존의 웹 에이전트 학습은 단순히 많은 양의 데이터를 수집하는 데 집중했으나, 웹 환경의 복잡성으로 인해 데이터의 품질과 다양성이 부족한 한계가 있었다. 특히 소형 모델은 대형 모델이 생성한 궤적을 단순히 모방하는 과정에서 불필요한 추론이나 오류까지 학습하게 되어 성능 격차가 크게 발생했다.
이 논문은 인간이 벤치마크 데이터를 만들 때 수행하는 '작업 설계(Task Design)', '실행(Annotation)', '검증(Supervision)' 역할을 LLM 모듈로 분리하여 해결한다. Persona Generator가 다양한 사용자 배경을 생성하고, Task Generator가 실제 환경을 탐색하며 구체적인 힌트가 포함된 작업을 설계한다. 이후 Agent가 작업을 수행하면, Judge가 설계된 힌트를 바탕으로 성공 여부를 엄격히 판정한다.
이러한 구조화된 증류 방식은 소형 모델에게 '무엇을 해야 하는지'뿐만 아니라 '성공적인 결과가 무엇인지'에 대한 명확한 가이드를 제공한다. 결과적으로 모델은 특정 환경의 단축키를 외우는 것이 아니라, 폼 입력이나 테이블 탐색과 같은 범용적인 웹 상호작용 원리를 학습하게 되어 처음 보는 웹사이트에서도 높은 성능을 발휘하게 된다.
관련 Figure

교사 모델(Gemini 3 Pro)의 성공률이 높을수록 이를 통해 학습한 학생 모델의 성능도 선형적으로 향상됨을 보여주며, 특히 추론 예산을 줄인 설정이 가장 효과적임을 입증한다.
교사 모델의 품질과 학생 모델 성능 간의 상관관계 그래프
방법론
AGENT-AS-ANNOTATORS 파이프라인은 두 단계로 구성된다. 1단계인 작업 합성에서는 Persona Generator가 250개의 고유한 페르소나를 생성하고, Task Generator가 웹 환경을 탐색하여 실제 존재하는 엔티티(제품, 사용자 등)를 기반으로 작업 의도와 평가 힌트를 생성한다. 2단계인 궤적 수집 및 필터링에서는 Agent가 힌트 없이 작업을 수행하고, Judge가 상호작용 기록과 평가 힌트를 대조하여 성공한 궤적만 선별한다.
교사 모델로는 Gemini 3 Pro를 사용하며, 추론 예산을 의도적으로 줄여 간결하고 명확한 사고 과정을 생성하도록 유도했다. 생성된 궤적은 multi-turn SFT 형식으로 변환된다. 각 단계는 사용자 메시지(Accessibility Tree + Screenshot + Goal)와 모델 응답( 및 블록 내의 구조화된 추론 + Action)의 쌍으로 구성된다.
학습 시에는 Cross-Entropy Loss를 사용하며, 모델이 관찰 형식을 복제하는 대신 적절한 추론과 행동을 생성하는 데 집중하도록 시스템 및 사용자 토큰은 마스킹 처리한다. 구체적으로 정답 토큰의 확률 p에 대해 -log(p)를 계산하여 손실값을 구하고, 이를 최소화하는 방향으로 9B 모델의 가중치를 갱신한다.
관련 Figure

인간의 역할을 Persona/Task Generator, Agent, Judge 모듈로 대체하는 과정을 보여준다. Task Generator가 생성한 '힌트'가 Judge의 평가 기준이 되어 고품질 데이터를 선별하는 핵심 메커니즘을 설명한다.
AGENT-AS-ANNOTATORS 파이프라인의 전체 구조도
주요 결과
메인 벤치마크인 WebArena에서 A3-Qwen3.5-9B 모델은 41.5%의 성공률을 달성했다. 이는 동일한 평가 프로토콜 하에서 Claude 3.5 Sonnet(36.0%)과 GPT-4o(31.5%)를 능가하는 수치이며, 기본 모델인 Qwen3.5-9B(31.0%) 대비 10.5%p 향상된 결과이다. 특히 미학습 환경인 WorkArena L1에서는 33.3%에서 51.5%로 18.2%p라는 비약적인 성능 향상을 기록했다.
Ablation Study 결과, Judge 필터링을 제거할 경우 학습 데이터가 40% 증가함에도 불구하고 성공률은 4.5%p 하락했다. 또한 추론 과정(Reasoning Traces)을 제거하면 성능이 7.9%p 급감하여, 단순한 행동 모방보다 사고 과정의 학습이 소형 모델의 성능에 결정적인 영향을 미침을 확인했다.
교사 모델 분석에서는 흥미롭게도 추론 예산을 줄인(Reduced Thinking) Gemini 3 Pro가 기본 설정보다 더 높은 성공률의 학습 데이터를 생성했다. 이는 간결한 사고 과정이 학생 모델이 학습하기에 더 깨끗한 신호를 제공하며, 교사 모델 자체의 실행 오류도 줄여주기 때문으로 분석됐다.
관련 Figure

기본 모델은 10단계 동안 방황하며 실패하는 반면, A3로 학습된 모델은 단 2단계 만에 정확한 정보를 찾아 작업을 완료하는 효율적인 행동 패턴을 보여준다.
기본 모델과 미세 조정된 모델의 웹 작업 수행 과정 비교

WebArena(+10.5pp)뿐만 아니라 미학습 환경인 WorkArena L1(+18.2pp) 등 모든 평가 지표에서 기본 모델 대비 성능이 크게 향상되었음을 시각화한다.
5개 벤치마크에 대한 성능 향상 수치 요약
기술 상세
본 연구의 핵심 아키텍처는 인간의 인지적 역할을 모듈화한 AGENT-AS-ANNOTATORS이다. Task Generator는 환경 탐색 데이터를 메모리에 저장하고 이를 컨텍스트로 사용하여 실제 환경 상태에 접지된(Grounded) 작업을 생성한다. 이는 기존의 사후 라벨링(Retroactive) 방식과 차별화되는 지점으로, 작업 생성 시점에 정답 상태에 대한 구체적인 '힌트'를 함께 생성할 수 있게 한다.
학습 데이터인 A3-SYNTH는 16,353개의 관찰-행동 쌍으로 구성되며, 각 응답은 평균 1,021자의 명시적인 추론 과정을 포함한다. 실험 결과 데이터의 양보다 질이 중요함이 입증되었는데, 2,322개의 고품질 궤적만으로도 수만 개의 데이터를 사용한 기존 연구들보다 우수한 성능을 보였다. 이는 Judge 모듈이 평가 힌트를 활용해 가짜 성공(False Positive)을 효과적으로 걸러냈기 때문이다.
학생 모델인 Qwen3.5-9B는 8개의 GPU에서 FSDP(Fully Sharded Data Parallelism)를 사용하여 2 에포크 동안 미세 조정되었다. 학습 과정에서 Training Loss는 실제 벤치마크 성능과 낮은 상관관계를 보였으며, 이는 에이전트 학습에서 단순한 토큰 예측 정확도보다 논리적 일관성이 더 중요함을 시사한다.
한계점
페르소나 모듈의 기여도를 정밀하게 측정하기 위한 '페르소나 없는 대조군' 실험이 부족하다는 점이 한계로 명시됐다. 또한 Judge 모듈의 오판율(False Positive Rate)을 인간의 라벨과 직접 비교하여 측정하지 못했으며, 현재는 SFT(지도 학습)에만 집중하고 있어 강화학습(RL)과의 결합을 통한 추가 성능 향상 여부는 향후 과제로 남겨두었다.
실무 활용
이 연구는 고가의 API 비용 없이 로컬 인프라에서 구동 가능한 고성능 웹 에이전트 구축 방법을 제시한다. 기업 내부 데이터 보안이 중요한 환경에서 외부 API 전송 없이 업무 자동화 에이전트를 배포하는 데 즉시 활용 가능하다.
- ServiceNow와 같은 기업용 ERP/ITSM 플랫폼 내 복잡한 워크플로 자동화
- 로컬 환경에서 구동되는 보안 중심의 개인용 웹 비서 서비스
- 웹 기반의 반복적인 데이터 입력 및 관리 작업 자동화
- 다양한 웹 인터페이스에 대한 자동화된 QA 및 테스트 수행
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.