핵심 요약
기존 웹사이트 생성 벤치마크는 정제된 지시사항을 가정하지만, 실제 사용자는 모호하거나 모순된 요구사항을 제시하는 경우가 많습니다. 이 논문은 에이전트가 사용자의 의도를 능동적으로 파악하지 않고 코드를 생성하는 '맹목적 실행' 문제를 지적하며, 이를 평가하기 위한 최초의 멀티모달 대화형 벤치마크를 제시합니다.
왜 중요한가
기존 웹사이트 생성 벤치마크는 정제된 지시사항을 가정하지만, 실제 사용자는 모호하거나 모순된 요구사항을 제시하는 경우가 많습니다. 이 논문은 에이전트가 사용자의 의도를 능동적으로 파악하지 않고 코드를 생성하는 '맹목적 실행' 문제를 지적하며, 이를 평가하기 위한 최초의 멀티모달 대화형 벤치마크를 제시합니다.
핵심 기여
InteractWeb-Bench 벤치마크 구축
비전문가 사용자의 저품질 지시사항 환경에서 웹사이트 생성을 평가하는 최초의 멀티모달 대화형 벤치마크를 개발했다. 404개의 동적 테스트 케이스를 포함하며 에이전트의 의도 인식 및 적응형 상호작용 능력을 측정한다.
페르소나 기반 지시사항 변이 모듈
요구사항 공학의 결함 분류 체계를 기반으로 미니멀리스트(P-MIN), 장황함(P-RAM), 직관적(P-INT), 모순적(P-CON) 등 4가지 사용자 페르소나를 설계하여 현실적인 노이즈를 시뮬레이션했다.
통합 액션 공간 및 실행 환경
에이전트가 명확화(Clarify), 구현(Implement), 검증(Verify), 제출(Submit) 액션을 자유롭게 선택하며 사용자와 상호작용하고 시각적 피드백을 통해 코드를 수정할 수 있는 환경을 구축했다.
제약 조건 슬롯 기반 평가 지표(TCR)
웹사이트의 구성 요소를 원자적 제약 조건으로 분해하고 난이도에 따른 가중치를 부여하는 TCR(Task Completion Rate) 지표를 도입하여 생성 품질을 정밀하게 평가한다.
핵심 아이디어 이해하기
기존의 코드 생성 에이전트는 주어진 텍스트 임베딩을 바탕으로 즉시 최적의 코드를 출력하도록 학습된 '일방향적 실행' 구조를 가집니다. 하지만 실제 환경에서는 입력된 지시사항의 정보량이 부족하거나(Incompleteness) 논리적 모순(Contradiction)이 존재할 때, 에이전트가 이를 인지하지 못하고 잘못된 방향으로 최적화를 진행하는 'Blind Execution' 함정에 빠지게 됩니다.
이 논문은 에이전트의 의사결정 과정을 단순한 '텍스트-투-코드' 변환이 아닌, '의도 명확화-구현-시각적 검증'의 반복적인 루프로 재정의합니다. 에이전트는 불확실성이 높은 상태(High Entropy)에서 바로 구현(Implement)을 선택하는 대신, 사용자에게 질문(Clarify)을 던져 정보의 공백을 메우거나 렌더링된 UI를 시각적으로 확인(Verify)하여 자신의 가설을 수정해야 합니다.
결과적으로 에이전트는 단순히 지시를 따르는 수동적 도구에서 벗어나, 시각적 피드백과 대화를 통해 사용자의 실제 의도(Ground Truth)에 정렬(Alignment)해 나가는 능동적 협업자로 진화해야 함을 강조합니다. 실험 결과 최신 MLLM들도 여전히 질문보다는 과도한 코드 생성을 통해 문제를 해결하려다 환각 현상을 일으키는 한계가 있음이 확인됐습니다.
방법론
InteractWeb-Bench는 에이전트의 자율적 행동을 평가하기 위해 비선형적 궤적 역학을 가진 대화형 환경을 사용합니다. 에이전트는 매 단계마다 현재 관찰값과 내부 추론을 바탕으로 {Clarify, Implement, Verify, Submit} 중 하나의 액션을 동적으로 선택합니다. [현재 상태 s_t 입력 → 정책 네트워크 pi_M 연산 → 행동 a_t 출력 → 환경 변화 및 피드백 수신]
사용자 시뮬레이션은 DeepSeek-V3.2를 활용하며, 요구사항 공학 결함 분류 체계에 따라 원본 지시사항을 변형합니다. 예를 들어 P-MIN 페르소나는 핵심 기능만 남기고 세부 제약을 제거하며, P-CON은 상호 배타적인 제약을 주입합니다. [원본 지시사항 I* 입력 → 페르소나 변이 연산자 적용 → 변형된 지시사항 I_mutated 생성]
검증 단계(Verify)에서는 에이전트가 스스로 테스트 기준 블록을 작성하고 Playwright 기반 브라우저에서 GUI 검사를 수행합니다. 환경은 터미널 UI 스크린샷, 브라우저 콘솔 오류, 시각적 기준 미달 사유를 포함한 복합 멀티모달 피드백을 에이전트에게 반환합니다. [테스트 기준 입력 → GUI 내비게이션 실행 → 시각적/로그 데이터 수집 → 구조화된 검증 결과 출력]
관련 Figure

사용자 페르소나로부터 변형된 쿼리가 생성되고, 에이전트가 통합 액션 공간을 통해 상호작용하며 최종적으로 제약 조건 슬롯 기반으로 평가받는 전체 워크플로우를 설명합니다. 상단의 실행 궤적 비교를 통해 '맹목적 실행'과 '의도 정렬된 실행'의 차이를 시각화합니다.
InteractWeb-Bench의 전체 아키텍처와 에이전트 실행 환경을 보여주는 다이어그램
주요 결과
최신 MLLM 기반 에이전트들을 대상으로 실험한 결과, 가장 성능이 우수한 Qwen3.6-Plus조차 작업 완료율(TCR) 38.78%에 그쳐 현실적인 대화형 환경에서의 한계를 드러냈습니다. 특히 모든 모델이 정보가 누락된 P-MIN 설정에서 성능이 크게 하락했으며, 이는 에이전트가 부족한 정보를 질문으로 채우기보다 임의로 추측하여 코드를 생성하는 경향이 강하기 때문으로 분석됐습니다.
에이전트들은 전반적으로 높은 의도 정렬 점수(IAS 3.90 이상)를 기록했음에도 불구하고, 실제 질문 적중률(CHR)은 40% 미만으로 나타났습니다. 이는 모델이 사용자의 의도를 대략적으로는 이해하지만, 구체적으로 어떤 정보가 누락되었는지 식별하여 질문하는 능력은 부족함을 의미합니다. 대신 모델들은 평균 1,000라인 이상의 방대한 코드를 생성하며 누락된 요구사항을 보완하려 시도했고, 이 과정에서 60% 이상의 높은 환각률(Hallucination Rate)을 보였습니다.
시각적 품질 면에서는 Kimi-K2.5가 레이아웃과 창의적 정렬에서 가장 높은 점수를 받았으나, 대부분의 모델이 텍스트 겹침이나 컨테이너 넘침과 같은 미세한 시각적 버그(VBR 10% 내외)를 완전히 제거하지 못하는 '심미적 천장 효과'를 보였습니다.
관련 Figure

대부분의 모델이 사용자의 의도는 잘 파악(높은 IAS)하지만, 실제로 필요한 질문을 던지는 능력(낮은 CHR)은 부족함을 보여줍니다. 이는 에이전트들이 '맹목적 실행' 상태에 갇혀 있음을 증명하는 핵심 데이터입니다.
의도 정렬 점수(IAS) 대비 질문 적중률(CHR)을 나타낸 산점도

정보가 부족한 P-MIN 설정에서 모든 모델의 성능이 급격히 하락함을 보여줍니다. 또한 완벽한 지시사항(Golden)이 주어졌을 때보다 페르소나 변이가 있을 때 환각률이 크게 증가하는 것을 확인할 수 있습니다.
사용자 페르소나별 성능 및 골든 지시사항 대비 성능 비교 그래프

Kimi-K2.5가 시각적 레이아웃과 창의적 정렬 모두에서 가장 우수한 성능을 보임을 나타냅니다. 전반적으로 모델 간의 시각적 품질 차이가 크지 않은 '천장 효과'가 관찰됩니다.
모델별 웹사이트 미적 품질(시각적 레이아웃 및 창의적 정렬) 평가 레이더 차트
기술 상세
InteractWeb-Bench의 핵심 아키텍처는 페르소나 기반 사용자 에이전트 모듈과 대화형 실행 환경으로 구성됩니다. 사용자 에이전트는 정보 은닉(Information Containment) 파이프라인을 통해 에이전트가 명시적으로 요청한 정보만 제공함으로써 정보 유출을 방지하고 엄격한 평가를 보장합니다.
평가 지표인 TCR은 각 작업을 원자적 제약 조건인 Oracle Slots(대상 컴포넌트, 예상 결과, 단언 타입)으로 분해합니다. 슬롯 가중치 계산 시 정적 요소(1.0), 상호작용 요소(2.0), 복잡한 로직(3.0)으로 차등화하여 단순한 UI 구현보다 기능적 완성도에 무게를 둡니다. 또한 무분별한 루프를 방지하기 위해 최대 턴 수(T_total)와 연속 검증 오류 제한(T_error)이라는 이중 경계 제약을 적용합니다.
에이전트의 행동 분석을 위해 의도 정렬 점수(IAS), 질문 적중률(CHR), 시각적 신중도 지수(VCI) 등 다각적인 메트릭을 도입했습니다. VCI는 구현 액션 대비 검증 액션의 비율로 정의되어 에이전트가 얼마나 신중하게 자신의 결과물을 검토하는지 측정합니다. 이러한 상세 분석을 통해 모델별로 '과잉 사고(Overthinking)', '위험한 속도(Fast but Risky)', '신중하고 효율적(Cautious and Efficient)' 등의 행동 패턴을 분류했습니다.
관련 Figure

모델들을 행동 특성에 따라 '과잉 사고', '비효율적', '빠르지만 위험함', '신중하고 효율적' 그룹으로 분류합니다. Qwen 시리즈는 상대적으로 신중하고 효율적인 패턴을 보이는 반면, GPT-4.1-mini는 과잉 사고 경향이 있음을 나타냅니다.
검증 신중도(VCI) 대비 실행 효율성(평균 단계 수)을 나타낸 모델 행동 지형도
한계점
본 논문은 에이전트가 맹목적 실행 함정에 빠지는 경향을 명확히 규명했으나, 실험 대상이 특정 최신 MLLM 제품군에 한정되어 있으며, 웹사이트 생성 외의 다른 소프트웨어 공학 도메인으로의 일반화 가능성에 대해서는 추가 연구가 필요함을 언급했습니다.
실무 활용
InteractWeb-Bench는 실제 웹 개발 환경에서 AI 에이전트의 협업 능력을 평가하고 개선하는 데 활용될 수 있습니다. 특히 비전문가 사용자의 모호한 요청을 처리해야 하는 로우코드(Low-code) 플랫폼 개발에 중요한 벤치마크가 됩니다.
- AI 웹 빌더의 사용자 의도 파악 능력 테스트 및 최적화
- 에이전트의 능동적 질문 생성(Proactive Clarification) 전략 학습 데이터 구축
- 멀티모달 피드백 기반의 자동 디버깅 시스템 성능 평가
코드 공개 여부: 공개
코드 저장소 보기키워드
코드 예제
Algorithm 1: InteractWeb-Bench Evaluation
1: // Persona-driven Initialization
2: Instruction I <- Op_persona(I*);
3: Initialize user agent Up and execution agent pi_M;
4: Initialize environment state s0, Timestep t <- 0;
5: // Interactive Agent Execution
6: while not terminated do
7: at ~ pi_M(st).
8: at in {clarify, implement, verify, submit}.
9: Execute at via (one-choice):
10: Clarify -> Interact with Up;
11: Implement -> Generate code;
12: Verify -> GUI inspection;
13: Submit -> Terminate proactively.
14: end while
15: // Final Evaluation
16: Compute final task completion rate score.InteractWeb-Bench의 전체 평가 프로세스를 정의한 알고리즘 의사코드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.