이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
모방 학습의 한계를 넘어 실제 브라우저 피드백과 확산 모델 최적화를 통해 웹 에이전트의 과업 완수율을 극대화한 연구 결과가 공개됐다.
배경
작성자는 웹 폼 채우기 과업을 수행하는 AI 에이전트의 성능을 개선하기 위해 수행한 두 가지 연구 프로젝트의 결과와 오픈소스 모델 및 코드를 공유했다.
의미 / 영향
이 연구는 웹 에이전트의 성능 한계가 모방 학습의 한계에서 기인하며, 실제 환경의 피드백을 통한 과업 중심 RL이 필수적임을 확인했다. 특히 확산 모델과 같은 새로운 생성 아키텍처 도입 시 기존 RL 알고리즘의 부적합성을 증명하고 시퀀스 단위 최적화라는 대안을 제시하여 에이전트 설계의 새로운 방향성을 제시했다.
실용적 조언
- 웹 에이전트 구축 시 텍스트 유사도 기반 평가보다는 실제 환경에서의 과업 성공 여부를 보상 신호로 사용하는 RL을 도입할 것
- 확산 모델을 에이전트 시퀀스 생성에 사용할 경우 토큰 단위 RL 대신 ESPO와 같은 시퀀스 단위 최적화 기법을 적용할 것
섹션별 상세
Browser in the Loop 프로젝트는 8B 파라미터 모델을 실제 브라우저 피드백 루프에 배치하여 학습시켰다. 모델은 행동 계획을 생성하고 이를 라이브 웹 폼에서 실행한 뒤 결과로부터 직접 학습하는 과정을 거친다. 전문가의 시연을 단순히 복제하는 모방 학습과 달리, RL은 모든 필드를 정확히 채우고도 제출에 실패하는 '거의 완벽한' 시도를 실제 성공으로 전환했다. 이는 에이전트가 단순히 필드를 채우는 법이 아니라 과업을 끝까지 완수하는 법을 최적화했음을 의미한다.
Concentrate or Collapse 프로젝트에서는 확산 언어 모델을 사용하여 전체 행동 시퀀스를 병렬적으로 정제하는 방식을 탐구했다. 조각가가 점토를 모든 각도에서 동시에 빚는 것과 유사하게 시퀀스를 생성하지만, 기존의 토큰 단위 RL을 적용할 경우 모델 출력이 일관성을 잃고 붕괴하는 현상이 나타났다. 16번의 대조 실험 결과 토큰 단위 RL은 단 2번만 성능 향상을 보였으며 대부분의 경우 모델 성능이 급격히 저하됐다. 이는 확산 모델의 특성에 맞는 새로운 최적화 알고리즘이 필수적임을 시사한다.
확산 아키텍처의 모델 붕괴 문제를 해결하기 위해 ESPO(Exact Sequence Policy Optimization) 방법론을 도입하여 성능 한계를 돌파했다. ESPO는 개별 토큰이 아닌 전체 시퀀스 수준에서 정책을 최적화함으로써 확산 모델의 병렬 생성 구조와 정렬을 유지한다. 실험을 통해 순수 확산 모델 기반 에이전트에서 ESPO가 유의미한 학습 신호를 제공함이 확인됐다. 생성 패러다임이 자기회귀에서 확산 방식으로 바뀔 때 기존의 RL 알고리즘이 더 이상 유효하지 않다는 기술적 통찰을 제공한다.
현재 웹 에이전트 벤치마크가 전문가의 궤적과 텍스트 유사도를 비교하는 방식에 치중되어 있다는 점을 지적했다. 연구 결과 텍스트상으로 정확해 보이는 경로와 실제 브라우저 환경에서 작동하여 폼 제출을 성공시키는 경로는 서로 다른 문제임이 밝혀졌다. 단순히 전문가를 흉내 내는 '모방'에서 '실제 과업 완수'로 목표를 전환할 때 학습 신호가 근본적으로 변화한다. 따라서 에이전트의 실질적 성능을 극대화하기 위해서는 평가 지표를 과업 성공 여부 중심으로 재편해야 한다.
실무 Takeaway
- 웹 에이전트 학습 시 전문가 모방보다 실제 환경의 피드백을 통한 강화학습이 최종 과업 완수율을 높이는 데 결정적이다.
- 확산 언어 모델은 기존 자기회귀 모델용 RL 알고리즘 적용 시 모델 붕괴가 발생하므로 ESPO와 같은 시퀀스 단위 최적화가 필요하다.
- 에이전트 성능 평가는 텍스트 유사도가 아닌 실제 브라우저 내 과업 성공 여부를 기준으로 이루어져야 실무적 가치를 가진다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 04. 01.수집 2026. 04. 01.출처 타입 REDDIT
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.