핵심 요약
기존의 AI 기반 웹페이지 생성 도구들은 텍스트와 코드는 잘 다루지만 이미지, 비디오, 차트와 같은 멀티모달 요소를 전체 디자인 맥락에 맞춰 통합하는 데 한계가 있었다. 이 논문은 계층적 계획과 반복적인 자기 반성 메커니즘을 통해 시각적으로 일관되고 구조적으로 완성도 높은 웹페이지를 생성하는 에이전트 프레임워크를 제시하여 UI/UX 자동화의 수준을 높였다.
왜 중요한가
기존의 AI 기반 웹페이지 생성 도구들은 텍스트와 코드는 잘 다루지만 이미지, 비디오, 차트와 같은 멀티모달 요소를 전체 디자인 맥락에 맞춰 통합하는 데 한계가 있었다. 이 논문은 계층적 계획과 반복적인 자기 반성 메커니즘을 통해 시각적으로 일관되고 구조적으로 완성도 높은 웹페이지를 생성하는 에이전트 프레임워크를 제시하여 UI/UX 자동화의 수준을 높였다.
핵심 기여
계층적 멀티모달 웹 에이전트 패러다임 도입
단순 코드 생성을 넘어 글로벌 레이아웃 계획과 컨텍스트를 고려한 로컬 요소 계획을 결합하여 네이티브 멀티모달 자산을 생성하는 에이전트 구조를 제안했다.
3단계 계층적 자기 반성 메커니즘
로컬(개별 자산), 컨텍스트(HTML/CSS 통합), 글로벌(전체 레이아웃 및 스타일)의 세 수준에서 생성된 웹페이지를 반복적으로 수정하여 품질을 높이는 프로세스를 구현했다.
MM-WebGEN-Bench 및 다단계 평가 프로토콜 구축
11개 장면 카테고리와 11개 시각적 스타일을 포함하는 120개의 고품질 웹페이지 데이터셋과 글로벌/로컬 기준을 모두 포함하는 체계적인 평가 체계를 마련했다.
핵심 아이디어 이해하기
기존의 웹페이지 생성 모델은 주로 HTML/CSS 코드를 한 번에 생성(One-shot)하거나, 이미지와 같은 시각적 요소를 단순한 자리 표시자(Placeholder)로 처리한 뒤 나중에 채워 넣는 방식을 사용했다. 이로 인해 전체적인 디자인 스타일이 어긋나거나 생성된 이미지의 크기가 레이아웃과 맞지 않는 등 시각적 불일치 문제가 발생했다. 이는 딥러닝 모델이 전체 구조와 세부 요소 간의 상호 의존성을 한 번의 연산으로 완벽히 파악하기 어렵기 때문이다.
MM-WebAgent는 인간 디자이너의 작업 방식을 모방하여 이 문제를 해결한다. 먼저 전체적인 레이아웃의 뼈대를 잡는 '글로벌 계획'을 세우고, 각 섹션에 들어갈 이미지나 차트의 역할을 정의하는 '로컬 계획'을 수립한다. 이는 고차원적인 디자인 의도를 저차원적인 실행 단계로 구체화하는 과정이다. 이후 각 요소가 생성되면 다시 전체 맥락에 비추어 어색한 부분을 찾아내고 수정하는 '자기 반성(Self-reflection)' 과정을 거친다.
결과적으로 이 시스템은 단순한 코드 생성을 넘어 시각적 자산과 레이아웃이 유기적으로 결합된 결과물을 만들어낸다. 이는 모델이 생성한 HTML 코드뿐만 아니라 실제 렌더링된 스크린샷을 피드백으로 활용함으로써, 픽셀 단위의 시각적 정렬과 미적 일관성을 동시에 확보할 수 있게 한다.
관련 Figure

로컬 수정(이미지 색감 조정), 컨텍스트 수정(요소 간 겹침 해결), 글로벌 수정(레이아웃 구조 변경)이 실제 웹페이지에서 어떻게 적용되어 품질을 높이는지 구체적인 전후 비교를 통해 보여준다.
계층적 자기 반성 과정을 통한 실제 웹페이지 수정 사례 시각화
방법론
MM-WebAgent의 방법론은 크게 계층적 계획 및 생성과 계층적 자기 반성으로 나뉜다. 계획 단계에서는 GPT-5.1을 활용하여 전체 웹페이지의 섹션 계층, 공간 구성, 페이지 수준의 스타일 속성을 정의하는 글로벌 레이아웃 플랜을 먼저 생성한다. 이후 이 글로벌 컨텍스트를 바탕으로 각 멀티모달 구성 요소에 대한 로컬 요소 플랜을 수립하며, 여기에는 요소의 기능적 역할, 주변 컨텍스트, 예상 크기 및 종횡비 제약 조건이 포함된다.
생성 단계에서는 각 로컬 플랜에 따라 지정된 생성 도구(이미지용 GPT-Image-1, 비디오용 Sora-2, 차트용 ECharts 기반 HTML 생성기 등)가 호출된다. 이때 로컬 플랜에 명시된 메타 속성(Visual style, Color tone 등)이 입력값으로 제공되어 병렬적으로 생성되면서도 전체 디자인 의도와 정렬되도록 한다.
자기 반성 단계는 세 가지 수준에서 반복된다. 1) Local Refine은 개별 자산의 시각적/의미적 오류를 수정한다. 2) Context Refine은 HTML/CSS 조각을 분석하여 요소 간의 오정렬, 겹침, 간격 문제를 해결하는 CSS 패치를 생성한다. 3) Global Refine은 렌더링된 전체 스크린샷을 참조하여 레이아웃 균형과 스타일 일관성을 최종 조정한다. 이러한 반복 과정은 최대 3회 또는 수렴할 때까지 진행된다.
관련 Figure

Task Planning, Hierarchical Generation, Multi-level Evaluation, Iterative Reflection으로 이어지는 4단계 워크플로우를 시각화한다. 글로벌 레이아웃과 로컬 스트림이 어떻게 병렬적으로 처리되고 피드백 루프를 통해 개선되는지 설명한다.
MM-WebAgent 프레임워크의 전체 아키텍처 다이어그램
주요 결과
MM-WebGEN-Bench 실험 결과, MM-WebAgent는 평균 점수 0.75를 기록하며 코드 전용 생성 방식(0.42) 및 코드 전용 에이전트 방식(0.46)을 크게 앞질렀다. 특히 이미지(0.88), 비디오(0.75), 차트(0.54)와 같은 로컬 멀티모달 요소의 품질과 통합 측면에서 압도적인 성능 향상을 보였다. 이는 에이전트 루프 내에서 멀티모달 콘텐츠 생성을 일급 시민(First-class action)으로 취급한 결과이다.
Ablation Study를 통해 계층적 계획이 없을 경우 성능이 0.42로 급락함을 확인하여 구조적 조정의 중요성을 입증했다. 또한 자기 반성 과정에서 1회차 수정 시 가장 큰 폭의 품질 향상이 일어났으며, 3회차까지 점진적으로 점수가 상승하는 경향을 보였다. 사용자 평가에서도 MM-WebAgent가 생성한 페이지가 기존 베이스라인 대비 78.99%의 승률을 기록하며 실제 인간의 선호도와도 일치함을 증명했다.
관련 Figure

MM-WebAgent가 생성한 페이지는 베이스라인(GPT-5.1, Qwen2.5 등)에 비해 레이아웃이 훨씬 정교하고 이미지와 차트가 전체 디자인 테마와 시각적으로 잘 어우러져 있음을 보여준다. 특히 베이스라인들은 멀티모달 요소가 누락되거나 스타일이 일관되지 않은 경우가 많다.
MM-WebAgent와 주요 베이스라인 모델들이 생성한 웹페이지 결과물 비교

레이아웃, 스타일, 이미지, 차트 모든 분야에서 수정 횟수(round 0~3)가 늘어날수록 점수가 꾸준히 상승함을 보여준다. 특히 스타일(style) 지표에서 초기 단계 대비 큰 폭의 개선이 이루어짐을 확인할 수 있다.
반복적인 자기 반성(Reflection) 횟수에 따른 각 평가 지표별 점수 변화 그래프
기술 상세
MM-WebAgent의 핵심 기술적 차별점은 '디자인 추상화 기반의 계층 구조'이다. 기존 에이전트들이 코드의 논리적 구조나 작업 순서에 집중한 것과 달리, 본 연구는 디자인의 위계(Global Layout -> Local Asset -> Contextual Integration)를 에이전트의 계획 단계에 직접 이식했다. 글로벌 레이아웃 에이전트는 레이아웃 구조를 JSON 형태로 출력하며, 이는 후속 로컬 에이전트들의 제약 조건(Constraint)으로 작용한다.
수학적 평가 모델로는 페널티 기반 스코어링 시스템을 도입했다. 레이아웃 정확도와 스타일 일관성을 측정하기 위해 미리 정의된 위반 규칙(Missing element, Misplaced critical element 등)에 따라 감점(Penalty)을 부여한다. 최종 점수는 score = max(0, 1 - α * Σ p_i)로 계산되며, 여기서 α는 정규화 계수, p_i는 각 이슈의 심각도에 따른 페널티 값이다. 미적 품질과 같은 주관적 요소는 0.2 단위의 Graded scoring scheme을 사용하여 정량화했다.
구현 측면에서 에이전트는 GPT-5.1을 백본으로 사용하며, 이미지 편집을 위한 Inpainting 기술과 차트 생성을 위한 ECharts 라이브러리를 도구로 활용한다. 특히 Context Refine 단계에서는 전체 코드를 수정하는 대신 특정 영역의 CSS만 수정하는 'Targeted structural edits' 방식을 채택하여 연산 효율성과 안정성을 동시에 확보했다.
한계점
이 접근 방식은 외부 AIGC 도구(이미지/비디오 생성기 등)에 의존하므로 해당 도구의 성능 한계나 안전 필터링, 가용성 변화에 민감하다. 또한 현재 프레임워크는 고정된 도구 세트와 호출 패턴을 가정하고 있어 동적인 도구 선택의 유연성이 부족하다. 학습 기반의 에이전트 최적화가 아닌 오케스트레이션 기반의 설계이므로 장기적인 상호작용을 통한 에이전트 행동의 자가 최적화 기능은 포함되어 있지 않다.
실무 활용
이 프레임워크는 전문적인 UI/UX 디자인 지식이 없는 사용자도 자연어 설명만으로 완성도 높은 멀티모달 웹사이트를 구축할 수 있게 해준다. 특히 기업용 대시보드, 랜딩 페이지, 포트폴리오 사이트 등 시각적 요소와 데이터 시각화가 중요한 웹페이지 제작에 즉시 활용 가능하다.
- 자연어 프롬프트를 기반으로 한 기업용 마케팅 랜딩 페이지 자동 생성
- 데이터셋을 입력받아 인터랙티브한 차트와 레이아웃이 포함된 분석 대시보드 구축
- 특정 브랜드 가이드라인(색상, 스타일)을 준수하는 일관된 디자인의 웹 프로토타이핑
- 기존 웹페이지의 시각적 불일치나 레이아웃 오류를 자동으로 감지하고 수정하는 디자인 리팩터링 도구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.