핵심 요약
기존 웹 에이전트들이 복잡한 HTML이나 DOM 구조에 의존하는 것과 달리, MolmoWeb은 스크린샷 이미지만을 입력받아 웹사이트를 이해하고 상호작용한다. 이 튜토리얼은 MolmoWeb-4B 모델을 4비트 양자화(NF4)를 통해 무료 Google Colab 환경에서 로드하고 실행하는 전체 파이프라인을 제공한다. 사용자는 작업 목표와 이전 단계 기록이 포함된 프롬프트 템플릿을 통해 모델이 사고(Thought)와 행동(Action)을 생성하도록 유도하며, 생성된 좌표를 스크린샷 위에 시각화하여 검증할 수 있다. 결과적으로 4B 규모의 경량 모델로도 복잡한 다단계 웹 브라우징 시나리오를 처리할 수 있는 실용적인 에이전트 아키텍처를 제시한다.
배경
Python 프로그래밍 기초, PyTorch 및 Transformers 라이브러리 사용 경험, Google Colab 환경 사용법
대상 독자
저비용으로 멀티모달 웹 에이전트를 구축하려는 AI 개발자 및 연구자
의미 / 영향
이 기술은 복잡한 웹 구조에 의존하지 않는 범용 웹 에이전트의 대중화를 가속화한다. 특히 4B 규모의 소형 모델로도 충분한 성능을 낼 수 있음을 보여줌으로써, 온디바이스 또는 저사양 서버 환경에서도 자율형 웹 에이전트 배포가 가능해질 것으로 전망된다.
섹션별 상세
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_use_double_quant=True,
)
model = AutoModelForImageTextToText.from_pretrained(
CHECKPOINT, trust_remote_code=True, quantization_config=bnb_config, device_map="auto",
)BitsAndBytes를 사용하여 MolmoWeb-4B 모델을 4비트 NF4 방식으로 양자화하여 로드하는 코드
MOLMOWEB_THINK_TEMPLATE = Template("""
# GOAL {{ task_description }}
# PREVIOUS STEPS
{% for action in past_actions -%}
## Step {{ action['index'] }}
THOUGHT: {{ action['thought'] }}
ACTION: {{ action['action'] }}
{% endfor %}
# CURRENTLY ACTIVE PAGE
Page {{ page_index }}: {{ page_title }} | {{ page_url }}
# NEXT STEP
""")모델의 사고 과정과 행동 이력을 구조화하여 전달하는 프롬프트 템플릿 정의
def parse_action_details(action_str):
action_str = action_str.strip()
m = re.match(r'click\(\s*([\d.]+)\s*,\s*([\d.]+)\s*\)', action_str)
if m:
return {"type": "click", "x": float(m.group(1)), "y": float(m.group(2))}
m = re.match(r'goto\(\s*["\'](.+?)["\']\s*\)', action_str)
if m:
return {"type": "goto", "url": m.group(1)}
// ...(중략)
return {"type": "unknown", "raw": action_str}모델이 생성한 텍스트 명령을 구조화된 데이터(JSON 형식)로 파싱하는 함수
실무 Takeaway
- HTML 파싱 없이 스크린샷만 사용하는 MolmoWeb을 활용하면 DOM 구조가 복잡하거나 동적인 웹사이트에서도 안정적인 에이전트 구축이 가능하다.
- 4비트 양자화(NF4)를 적용하여 MolmoWeb-4B 모델을 6GB 미만의 VRAM에서 실행함으로써 저비용으로 고성능 멀티모달 추론 환경을 구성할 수 있다.
- 모델의 출력을 'THOUGHT'와 'ACTION'으로 분리하여 파싱하고 클릭 좌표를 시각화함으로써 에이전트의 의사결정 과정을 투명하게 모니터링할 수 있다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.