핵심 요약
실제 웹사이트에서 AI 에이전트를 직접 학습시키는 것은 보안 위험과 높은 비용 문제가 발생한다. 이 논문은 코딩 에이전트를 활용해 실제 사이트와 똑같이 작동하는 가상 환경을 자동으로 구축하고 정답 여부를 코드로 즉시 확인할 수 있는 시스템을 제안하여 안전하고 효율적인 AI 학습의 새로운 방향을 제시한다.
왜 중요한가
실제 웹사이트에서 AI 에이전트를 직접 학습시키는 것은 보안 위험과 높은 비용 문제가 발생한다. 이 논문은 코딩 에이전트를 활용해 실제 사이트와 똑같이 작동하는 가상 환경을 자동으로 구축하고 정답 여부를 코드로 즉시 확인할 수 있는 시스템을 제안하여 안전하고 효율적인 AI 학습의 새로운 방향을 제시한다.
핵심 기여
자동 웹사이트 복제 프레임워크 VERIENV 구축
코딩 에이전트를 사용하여 실제 웹사이트의 프론트엔드, 백엔드 로직, 데이터베이스를 포함한 실행 가능한 가상 환경으로 자동 복제하는 시스템을 구현했다.
결정론적 보상 검증을 위한 Python SDK 도입
복제된 환경의 내부 데이터베이스에 직접 접근할 수 있는 SDK를 제공하여 에이전트의 작업 성공 여부를 프로그램적으로 정확하게 판별하는 메커니즘을 마련했다.
안전하고 확장 가능한 자기 진화 학습 루프 증명
실제 웹사이트와의 상호작용 없이 가상 환경 내에서 무한히 새로운 과제를 생성하고 학습함으로써 에이전트의 성능을 지속적으로 개선하는 구조를 입증했다.
핵심 아이디어 이해하기
기존 웹 에이전트 학습은 실제 웹사이트에서 직접 행동하며 데이터를 수집해야 했다. 하지만 이는 개인정보 유출이나 결제 사고 같은 위험이 있고 사이트 업데이트 시 학습 데이터가 무용지물이 되는 한계가 존재한다. 특히 에이전트가 수행한 작업이 맞는지 확인하기 위해 또 다른 LLM을 판독기로 사용하는데 이 판단이 주관적이라 학습이 불안정해지는 문제가 발생한다.
VERIENV는 이 문제를 환경 자체를 복제하는 방식으로 해결한다. GPT-5.2와 같은 강력한 코딩 에이전트가 웹사이트 스크린샷을 보고 실제 작동하는 코드를 짜서 가상 서버를 만든다. 이때 단순히 겉모습만 따라 하는 것이 아니라 데이터베이스와 API까지 구현하여 내부 상태를 들여다볼 수 있게 설계했다.
이렇게 구축된 가상 환경에서는 에이전트가 어떤 행동을 했을 때 데이터베이스 값이 어떻게 변했는지 코드로 직접 확인 가능하다. 즉 정답을 판별하는 기준이 주관적인 문장이 아니라 명확한 데이터 값이 되므로 에이전트는 훨씬 더 정확하고 빠르게 학습할 수 있게 된다. 이는 에이전트가 스스로 문제를 내고 스스로 채점하며 성장하는 자기 진화의 토대가 된다.
방법론
전체 시스템은 실행 가능한 코드(C), 데이터베이스(D), Python SDK(P)의 튜플로 구성된다. GPT-5.2 기반의 코딩 에이전트가 대상 사이트의 스크린샷을 분석하여 프론트엔드와 백엔드 로직을 생성한다. 이후 Playwright MCP를 활용해 실제 배포된 사이트와 시각적 및 기능적 차이를 비교하며 반복적으로 버그를 수정하는 안정화 단계를 거친다.
검증 가능한 과제 생성 단계에서는 LLM이 자연어 지시문과 이를 검증할 Python SDK 기반 프로그램을 동시에 생성한다. [에이전트의 최종 상태와 SDK 쿼리 결과라는 두 입력값을 비교 연산하여 일치하면 1, 불일치하면 0의 이진 값을 얻고 이 숫자는 작업 성공 여부를 나타내는 절대적 지표가 된다]는 원리로 결정론적인 보상 신호를 생성한다.
자기 진화 학습 루프에서는 생성된 과제들을 난이도별로 분류하고 에이전트가 가상 환경에서 이를 해결하도록 유도한다. 성공한 궤적만을 선별하여 Rejection Fine-tuning 방식으로 모델을 업데이트하며 환경의 수를 늘릴수록 성능이 선형적으로 향상되는 확장성을 확보했다.
주요 결과
WebArena-Lite 벤치마크에서 Qwen3-4B 모델은 +6.06점, LLaMA-3.2-3B-Instruct 모델은 +9.09점의 성공률 향상을 기록했다. 이는 기존의 데이터 증강 방식인 ADP나 Synatra보다 높은 수치이며 특히 학습하지 않은 도메인에서도 효과적인 일반화 성능을 나타냈다.
Mind2Web-Online 실험 결과 난이도가 높은 과제일수록 VERIENV의 효과가 두드러졌다. LLaMA-3.2-3B 모델의 경우 전체 성공률이 +13.19점 상승했으며 이는 결정론적인 보상 신호가 복잡한 단계의 추론을 학습하는 데 필수적임을 시사한다.
환경 확장성 분석에 따르면 학습에 사용되는 복제 웹사이트의 개수가 늘어날수록 에이전트의 성능이 일관되게 우상향하는 경향을 보였다. 이는 고품질의 가상 환경을 대규모로 구축하는 것이 모델 파라미터를 늘리는 것만큼이나 중요한 성능 개선 요인임을 입증한 결과이다.
실무 활용
기업 내부 시스템이나 보안이 중요한 웹 서비스용 AI 에이전트를 개발할 때 실제 데이터를 노출하지 않고도 고성능 모델을 학습시킬 수 있는 안전한 샌드박스를 제공한다.
- 사내 ERP 및 CRM 시스템 자동화 에이전트의 안전한 사전 학습
- 결제나 개인정보 수정이 포함된 민감한 웹 서비스의 시나리오 테스트
- 웹 에이전트의 성능 측정을 위한 객관적이고 자동화된 벤치마크 환경 구축
- 새로운 웹 UI 디자인에 대한 AI 에이전트의 적응력 평가
기술 상세
시스템 아키텍처는 실제 웹사이트의 기능적 구조를 보존하는 데 초점을 맞춘다. 코딩 에이전트는 단순한 코드 생성을 넘어 서버 시작 스크립트와 상태 초기화 스크립트까지 포함한 완전한 인프라를 구축하여 반복 학습의 재현성을 보장한다. 이는 시뮬레이션과 실제 환경 사이의 간극인 Sim-to-Real Gap을 최소화하는 핵심 요소이다.
보상 설계의 핵심은 LLM-as-a-judge의 불확실성을 제거한 것이다. SDK를 통해 환경의 내부 상태에 직접 접근함으로써 에이전트가 화면상에서 속임수를 쓰거나 우연히 정답을 맞히는 경우를 배제하고 실제 데이터의 변화를 기준으로 엄격한 검증을 수행한다. 이는 강화학습의 수렴 속도와 안정성을 크게 향상시킨다.
구현 세부사항에서 GPT-5.2는 Backbone LLM으로 사용되었으며 웹사이트 복제에는 평균 83.5분과 3.6달러의 비용이 소요되었다. 학습 시에는 LLaMA-Factory를 활용해 8,000 토큰의 최대 시퀀스 길이와 DeepSpeed ZeRO-3 최적화를 적용하여 효율적인 분산 학습을 진행했다.
한계점
멀티미디어 콘텐츠(PDF 문서 서빙, 비디오 스트리밍 등)가 핵심인 사이트의 경우 코딩 에이전트가 완벽하게 복제하는 데 어려움을 겪는다. 또한 100개 이상의 앱을 단일 서버에 배포할 때 발생하는 포트 충돌이나 CORS 설정 오류 등 인프라 오케스트레이션 차원의 한계가 존재한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료