MolmoWeb: 개방형 웹을 위한 공개 시각 웹 에이전트 및 공개 데이터

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

현재 가장 성능이 뛰어난 웹 에이전트들은 대부분 비공개 모델과 데이터를 사용하고 있어 연구의 재현성이 낮습니다. MolmoWeb은 훈련 데이터, 모델 가중치, 평가 도구를 모두 공개하면서도 GPT-4o 기반의 에이전트보다 높은 성능을 기록하여 개방형 웹 에이전트 연구의 새로운 기준을 제시합니다.

왜 중요한가

현재 가장 성능이 뛰어난 웹 에이전트들은 대부분 비공개 모델과 데이터를 사용하고 있어 연구의 재현성이 낮습니다. MolmoWeb은 훈련 데이터, 모델 가중치, 평가 도구를 모두 공개하면서도 GPT-4o 기반의 에이전트보다 높은 성능을 기록하여 개방형 웹 에이전트 연구의 새로운 기준을 제시합니다.

핵심 기여

MolmoWebMix 데이터셋 구축

10만 개 이상의 합성 작업 궤적, 3만 개 이상의 인간 시연 데이터, 원자 단위 웹 기술 궤적 및 GUI 인지 데이터를 포함하는 대규모 혼합 데이터셋을 구축했다.

시각 중심의 웹 에이전트 아키텍처

HTML이나 Accessibility Tree(AxTree)에 의존하지 않고 오직 웹페이지 스크린샷만을 입력으로 사용하여 다음 동작을 예측하는 Vision-only 에이전트 제품군을 개발했다.

SOTA 성능 달성 및 폐쇄형 모델 추월

4B 및 8B 규모의 모델로 WebVoyager, Online-Mind2Web 등 주요 벤치마크에서 기존 공개 모델들을 압도했으며, MolmoWeb-8B는 GPT-4o 기반의 SoM 에이전트 성능을 넘어섰다.

추론 시간 스케일링을 통한 성능 향상

병렬 롤아웃과 Best-of-N 선택 기법을 적용하여 WebVoyager에서 94.7%의 성공률(pass@4)을 달성함으로써 추론 시 연산량 증가가 성능에 미치는 긍정적 영향을 입증했다.

핵심 아이디어 이해하기

기존의 웹 에이전트들은 웹페이지의 구조 정보인 DOM이나 AxTree를 텍스트로 변환하여 입력으로 사용해왔다. 하지만 이러한 방식은 페이지가 복잡해질수록 토큰 소모량이 극심해지고, 동적으로 렌더링되는 콘텐츠의 경우 구조 정보가 시각적 실제와 일치하지 않는 취약점이 존재한다. MolmoWeb은 인간이 웹을 사용하는 방식과 동일하게 스크린샷이라는 시각적 정보만을 활용하여 이 문제를 해결한다.

이 모델은 Molmo2라는 강력한 시각-언어 모델(VLM)을 기반으로 하며, 현재 화면 상태와 수행해야 할 작업 지시문, 그리고 이전 행동 이력을 입력으로 받는다. 여기서 핵심은 '사고(Thought)' 과정을 먼저 생성한 뒤 '행동(Action)'을 결정하는 구조다. 이는 모델이 단순히 픽셀 값을 매핑하는 것이 아니라, 현재 상황을 논리적으로 판단한 뒤 클릭 좌표나 키보드 입력 값을 JSON 형태로 출력하도록 유도한다.

결과적으로 MolmoWeb은 수십 배 더 큰 파라미터를 가진 폐쇄형 모델들보다 더 정확하게 요소를 식별하고 조작한다. 이는 고품질의 합성 데이터와 실제 인간의 행동 데이터를 정교하게 혼합하여 학습시킨 결과이며, 시각 정보만으로도 복잡한 다단계 웹 작업을 충분히 수행할 수 있음을 보여준다.

방법론

MolmoWeb은 Molmo2 아키텍처를 기반으로 하며, Qwen3 언어 모델과 SigLIP2 비전 인코더를 결합한 구조를 취한다. 입력값으로 현재 뷰포트의 스크린샷, 텍스트 작업 지시서, 그리고 최대 10단계의 이전 행동 이력을 받는다. 출력값은 자연어 사고 과정과 실행할 브라우저 동작을 포함하는 구조화된 JSON 객체다.

학습 데이터인 MolmoWebMix는 네 가지 소스로 구성된다. 첫째, Gemini-3-Flash를 활용해 AxTree 기반으로 생성한 합성 궤적이다. 둘째, Planner-Operator-Verifier 역할을 나누어 정교하게 생성한 멀티 에이전트 합성 데이터다. 셋째, 크라우드 워커가 실제 웹사이트에서 수행한 인간 시연 데이터다. 넷째, 특정 요소 클릭(Grounding)이나 화면 질문 답변(Screenshot QA)과 같은 GUI 인지 데이터다.

행동 공간(Action Space)은 클릭, 드래그, 스크롤, 타이핑 등 인간의 조작 방식을 모방한 13가지 기본 동작으로 정의된다. 마우스 좌표는 [0, 100] 범위로 정규화되어 학습되며, 추론 시 실제 뷰포트 픽셀 좌표로 변환된다. 학습은 64개의 H100 GPU를 사용하여 최대 5만 스텝 동안 지도 학습(SFT) 방식으로 진행된다.

주요 결과

MolmoWeb-8B는 WebVoyager 벤치마크에서 78.2%의 성공률을 기록하여 Fara-7B(73.5%) 등 기존 공개 모델들을 제치고 SOTA를 달성했다. 특히 GPT-4o 기반의 SoM(Set-of-Marks) 에이전트가 기록한 65.1%보다 월등히 높은 성능을 보였다. Online-Mind2Web에서도 35.3%의 성공률로 공개 모델 중 가장 높은 성능을 입증했다.

추론 시간 스케일링 실험에서는 병렬로 4개의 경로를 생성하고 VLM 판독기(Judge)가 최적의 결과를 선택하게 했을 때(pass@4), WebVoyager 성공률이 94.7%까지 상승했다. 이는 단일 실행 대비 약 16.5%p 향상된 수치다. 또한 데이터 절제 연구(Ablation Study)를 통해 전체 데이터의 10%만 사용해도 최종 성능의 85~90%에 도달할 수 있음을 확인하여 데이터 혼합의 효율성을 증명했다.

기술 상세

MolmoWeb은 시각적 인지 능력을 극대화하기 위해 SigLIP2 비전 인코더를 사용하며, 인터리브(Interleaved)된 이미지와 텍스트 시퀀스를 처리한다. 기존 연구들이 AxTree를 텍스트로 주입하여 컨텍스트 길이를 낭비하던 것과 달리, 스크린샷 한 장으로 정보를 압축하여 효율성을 높였다. 특히 클릭 좌표 예측 시 요소의 중앙이 아닌 경계 상자 내에서 가우시안 분포를 따르는 무작위 지점을 학습시켜 공간적 강건성(Spatial Robustness)을 확보했다.

학습 전략 측면에서는 합성 데이터가 인간 데이터보다 더 효과적인 학습 신호를 제공한다는 점을 발견했다. 인간의 데이터는 탐색적인 우회 경로가 많아 노이즈가 섞이는 반면, AxTree 기반의 합성 데이터는 목표 지향적이고 직접적인 경로를 제공하기 때문이다. 또한 추론 시 Greedy 디코딩보다 Nucleus Sampling(p=0.8, temp=0.7)을 사용할 때 성능이 약 5% 이상 향상됨을 확인했다.

한계점

지시문이 모호하거나 탐색이 많이 필요한 경우 성능이 저하될 수 있으며, 특히 대상 웹사이트의 이름이나 URL이 지시문에 명시되지 않았을 때 어려움을 겪는다. 또한 아주 작은 텍스트에 대한 OCR 능력이나 대량의 텍스트 구절을 이해해야 하는 복잡한 질문 답변에서 실패 사례가 관찰되었다. 드물게 발생하는 동작인 'scroll_at'이나 'hover' 예측에서도 한계를 보였다.

실무 활용

MolmoWeb은 별도의 API나 HTML 접근 권한 없이 브라우저 화면만으로 작동하므로, 보안이 중요한 내부 웹 시스템이나 복잡한 동적 웹사이트 자동화에 즉시 적용 가능하다.

복잡한 항공권 예약 및 결제 프로세스 자동화
다양한 웹 UI 요소에 대한 시각적 회귀 테스트 자동화
웹 기반 고객 지원 시스템의 티켓 처리 에이전트
비정형 웹페이지에서의 데이터 추출 및 양식 자동 기입

코드 공개 여부: 공개

코드 저장소 보기

키워드

Web Agent(웹 에이전트)VLM(시각 언어 모델)GUI Perception(GUI 인지)Synthetic Data(합성 데이터)Test-time Scaling(추론 시간 스케일링)Open Source AI(오픈 소스 AI)