MINIAPPBENCH: LLM 기반 어시스턴트의 텍스트 응답에서 대화형 HTML 응답으로의 전환 평가

왜 중요한가

기존 LLM 평가는 정적인 텍스트나 단순 코드 정확도에 치중되어 있어, 실제 사용자가 조작할 수 있는 대화형 애플리케이션 생성 능력을 측정하기 어려웠습니다. 이 논문은 실제 세계의 원리를 따르는 동적 앱 생성 능력을 평가하는 벤치마크와 자동화된 에이전트 평가 방식을 도입하여 차세대 AI 인터페이스 연구의 기준을 제시합니다.

핵심 기여

MiniAppBench 벤치마크 구축

1,000만 건 이상의 실제 사용자 질의에서 추출한 500개의 고품질 대화형 앱 생성 과제를 제공하며, 게임, 과학, 도구 등 6개 주요 도메인을 포괄합니다.

MiniAppEval 에이전트 기반 평가 프레임워크

Playwright 브라우저 자동화를 활용하여 에이전트가 인간처럼 앱을 조작하며 의도(Intention), 정적 구조(Static), 동적 로직(Dynamic)을 체계적으로 평가합니다.

원리 준수(Principle Adherence) 검증

물리 법칙이나 상식 등 앱 실행에 필수적인 암묵적 원리를 모델이 얼마나 정확하게 포착하고 실행 가능한 코드로 구현하는지 측정합니다.

핵심 아이디어 이해하기

LLM의 코드 생성은 본래 토큰 시퀀스 예측(Next Token Prediction) 문제로 다뤄져 왔습니다. 하지만 정적인 코드와 달리 대화형 앱은 사용자의 입력에 따라 내부 상태(State)가 변하고, 그 변화가 물리 법칙이나 상식과 일치해야 합니다. 기존 평가는 코드의 구문이 맞는지(Syntax)만 확인했을 뿐, 실행 시의 논리적 흐름(Dynamic Logic)을 놓치고 있었습니다.

이 논문은 모델이 생성한 코드를 실제 브라우저 환경에서 실행하고, 평가 에이전트가 직접 버튼을 누르거나 값을 입력하며 앱이 의도대로 작동하는지 확인하는 '실행 기반 평가'를 도입했습니다. 이는 모델이 단순한 텍스트 생성기를 넘어, 현실 세계의 인과 관계를 코드로 구현하는 '실행 가능한 세계 모델(Executable World Model)'로서 기능해야 함을 강조합니다.

방법론

데이터셋 구축은 실제 사용자 질의에서 대화형 잠재력이 높은 과제를 추출하고, LLM을 활용해 다양한 변종을 생성하여 도메인과 난이도의 균형을 맞추는 4단계 파이프라인으로 구성됩니다. 각 과제에는 검증 가이드라인인 Eval-Ref가 포함되어 에이전트의 테스트 시나리오를 가이드합니다.

MiniAppEval 시스템은 Playwright를 사용하여 생성된 앱을 샌드박스 브라우저에서 실행합니다. 평가 에이전트는 앱의 초기 DOM 구조를 분석하고, Eval-Ref에 명시된 시나리오에 따라 클릭이나 타이핑 같은 상호작용을 수행합니다. [입력값: 생성된 HTML/JS 코드 및 검증 가이드라인 → 연산: 브라우저 자동화 도구를 통한 상호작용 및 DOM 상태 변화 추적 → 출력 의미: 의도 부합도, 정적 완성도, 동적 로직 점수]

평가의 객관성을 높이기 위해 이중 맹검(Double Blind) 방식을 도입했습니다. 평가 에이전트가 원래의 사용자 쿼리를 모르는 상태에서 앱의 기능을 객관적으로 설명하게 하고, 별도의 모델이 이 설명과 원래 쿼리를 대조하여 최종 점수를 산출함으로써 확증 편향을 제거합니다.

주요 결과

실험 결과, GPT-5.2가 45.46%의 성공률로 가장 우수한 성능을 보였으나 전체 모델 평균은 17.05%에 그쳐 현재 LLM들에게 대화형 앱 생성은 여전히 매우 어려운 과제임이 확인됐습니다. 특히 물리 시뮬레이션이나 복잡한 도구 생성에서 성능이 크게 떨어졌으며, 모델의 크기가 커질수록 성능이 향상되는 Scaling Law가 관찰됐습니다.

MiniAppEval 프레임워크는 인간 전문가의 판단과 0.81~0.89의 높은 상관관계(Cohen's Kappa)를 보여주어, 복잡한 대화형 애플리케이션을 평가하는 데 있어 신뢰할 수 있는 자동화된 표준임을 입증했습니다.

실무 활용

AI 기반 웹 개발 도구나 프론트엔드 에이전트의 성능을 정밀하게 측정하고 개선하는 데 직접적으로 활용할 수 있습니다.

AI 웹 애플리케이션 자동 생성 서비스의 품질 검증 자동화
교육용 인터랙티브 시뮬레이션 생성 모델의 학습 및 평가 벤치마크
프론트엔드 에이전트의 상호작용 로직 및 예외 처리 능력 테스트

기술 상세

MiniAppEval은 Playwright MCP 서버를 기반으로 하며, DOM 트리 스냅샷과 소스 코드 접근 권한을 가진 에이전트가 브라우저 환경에서 자율적으로 행동합니다. 평가는 Intention(사용자 목표 달성), Static(UI 요소 및 접근성), Dynamic(상태 전이 및 예외 처리)의 세 가지 축으로 점수를 산출합니다.

모든 앱은 외부 의존성 없이 독립적으로 실행 가능한(Self-contained) 단일 HTML 파일 또는 React 프로젝트 형태로 생성됩니다. 평가 과정에서 에이전트는 DOM 상태 변화, 콘솔 로그, 소스 코드 로직을 종합적으로 분석하여 단순한 시각적 유사성을 넘어선 기능적 무결성을 검증합니다.

한계점

현재 벤치마크는 오프라인 샌드박스 환경에 국한되어 있어, 외부 센서 데이터, 독점 데이터베이스 접근, 또는 실시간 웹 액세스가 필요한 애플리케이션은 평가 범위에서 제외됐습니다.

키워드

LLM(대형 언어 모델)MiniApps(미니앱)Benchmark(벤치마크)Agentic Evaluation(에이전트 기반 평가)Playwright(플레이라이트)Interactive Application(대화형 애플리케이션)