핵심 요약
기존 AI 에이전트 평가가 단순한 코드 생성에 치우쳐 실제 업무 환경의 복잡성을 반영하지 못한다는 점을 지적한다. 스프레드시트 조작, 다국어 프레임워크 진화, 모호한 의도 파악 등 실제 데이터 분석 워크플로를 모사한 260개의 과제를 통해 에이전트의 실질적인 업무 수행 능력을 측정하는 새로운 기준을 제시한다.
왜 중요한가
기존 AI 에이전트 평가가 단순한 코드 생성에 치우쳐 실제 업무 환경의 복잡성을 반영하지 못한다는 점을 지적한다. 스프레드시트 조작, 다국어 프레임워크 진화, 모호한 의도 파악 등 실제 데이터 분석 워크플로를 모사한 260개의 과제를 통해 에이전트의 실질적인 업무 수행 능력을 측정하는 새로운 기준을 제시한다.
핵심 기여
DV-World 벤치마크 구축
실제 전문가의 업무 생애주기를 반영한 260개의 데이터 시각화 과제를 설계했다. 스프레드시트 조작(DV-Sheet), 프레임워크 간 로직 전이(DV-Evolution), 사용자 상호작용(DV-Interact)의 세 가지 핵심 영역을 포함한다.
하이브리드 평가 프레임워크 도입
수치적 정확성을 검증하는 Table-value Alignment와 시각적/미적 품질을 평가하는 MLLM-as-a-Judge 시스템을 결합하여 에이전트의 성능을 다각도로 측정한다.
사용자 시뮬레이터 및 보안 게이트키퍼 설계
모호한 요청을 던지는 사용자 시뮬레이터와 에이전트의 부정행위(코드 직접 요청 등)를 차단하는 보안 모듈을 통해 실제와 유사한 상호작용 환경을 구현했다.
핵심 아이디어 이해하기
기존의 데이터 시각화 평가는 주로 정해진 데이터셋에서 특정 차트를 그리는 코드를 한 번에 생성하는 'One-shot' 능력에 집중했다. 하지만 실제 업무에서는 엑셀 파일 내의 셀 참조 관계를 유지하며 차트를 수정하거나, 파이썬으로 만든 차트를 자바스크립트 기반의 D3.js로 옮겨야 하는 등 연속적이고 복잡한 환경 적응 능력이 필수적이다.
이 논문은 에이전트가 단순히 코드를 짜는 것을 넘어, 소프트웨어의 객체 모델(Object Model)을 직접 조작하고 데이터 바인딩을 관리해야 한다는 점에 착안했다. 예를 들어 엑셀 차트의 경우, 정적인 이미지가 아니라 셀 값이 바뀌면 차트도 함께 변하는 동적 연결성을 유지해야 한다.
결과적으로 에이전트가 사용자의 모호한 의도를 질문을 통해 구체화하고, 다양한 프로그래밍 패러다임 사이에서 시각적 논리를 보존하며, 실제 소프트웨어 환경의 제약 조건을 준수하며 작업하는 능력을 갖추었는지 검증하는 것이 핵심 아이디어이다.
방법론
DV-World는 세 가지 하위 작업으로 구성된다. DV-Sheet는 openpyxl이나 xlwings 라이브러리를 사용하여 엑셀 내에서 차트 생성, 오류 수정, 대시보드 구성을 수행한다. DV-Evolution은 참조 이미지와 데이터를 기반으로 Python, Vega-Lite, D3.js 등 5가지 프레임워크 간의 시각화 로직 이관 및 업데이트 능력을 평가한다. DV-Interact는 에이전트가 ask_user 도구를 사용하여 사용자의 숨겨진 의도(Hidden Intent)를 파악하는 다회차 대화를 평가한다.
평가 지표로는 Table-value Alignment를 사용한다. 생성된 테이블의 각 셀 값 v_gen과 정답 v_gt를 비교하여 일치 여부를 판단하며, 부동 소수점의 경우 수치적 허용 오차(tolerance)를 적용한다. [생성된 수치와 정답 수치의 차이를 계산 → 허용 범위 이내인지 확인 → 전체 유효 셀 대비 일치 비율 산출 → 데이터 충실도 점수화]
시각적 품질 평가는 MLLM-as-a-Judge 방식을 채택했다. 전문가가 작성한 세부 루브릭(신뢰성, 적절성, 미학 등)을 바탕으로 Gemini-2.5-Flash와 같은 모델이 점수를 부여하며, 이는 인간의 평가와 높은 상관관계(Pearson ρ=0.86)를 보임을 입증했다.
관련 Figure

에이전트가 실제 소프트웨어 환경(Excel)에서 차트를 생성 및 수정하고, 서로 다른 프로그래밍 언어 간에 시각화 로직을 전이하며, 사용자와의 대화를 통해 모호한 요구사항을 해결하는 전체 워크플로를 시각화했다. 이는 본 논문이 제안하는 벤치마크의 포괄적인 평가 범위를 명확히 나타낸다.
DV-World의 세 가지 핵심 도메인(DV-Sheet, DV-Evolution, DV-Interact)과 하위 과제들을 보여주는 다이어그램이다.
주요 결과
실험 결과, 최신 SOTA 모델들도 DV-World의 종합 점수에서 50%를 넘지 못하는 저조한 성적을 거두었다. DV-Sheet 영역에서는 Gemini-3-Pro가 40.48점으로 가장 앞섰으나, 엑셀의 객체 모델 관리와 동적 바인딩 유지에서 큰 어려움을 겪는 것으로 나타났다.
DV-Evolution에서는 프레임워크의 구문 밀도가 높을수록 성능이 하락했다. 특히 저수준 라이브러리인 D3.js 과제에서 에이전트들은 복잡한 렌더링 로직을 처리하지 못하고 시각적 논리를 상실하는 경우가 빈번했다. DV-Interact에서는 에이전트가 모호함을 식별하지 못하고 임의로 가정을 세워 실행하는 'Interactive Avoidance' 현상이 주요 실패 원인으로 지목됐다.
기술 상세
에이전트의 성능을 극대화하기 위해 ReAct 패러다임 기반의 'DV-World-Agent' 베이스라인을 구축했다. 이 에이전트는 bash, load_image, render_chart, ask_user 등의 도구를 오케스트레이션하며 다중 모달 피드백을 수용한다.
사용자 시뮬레이터는 GPT-5-mini를 백본으로 사용하며, 두 단계 구조를 가진다. 첫 번째 단계인 Gatekeeper는 에이전트가 내부 스키마나 정답 코드를 직접 요구하는지 감시하여 거절(REFUSE)하고, 두 번째 단계인 Generator는 사전에 정의된 반응 규칙(Reaction Rules)에 따라 자연스러운 답변을 생성한다.
데이터 오염을 방지하기 위해 ExcelForum, Kaggle 등에서 수집한 실제 데이터를 변조(Value Perturbation)하고 메타데이터를 익명화하는 3단계 적응 프로토콜을 적용했다. 이를 통해 모델이 학습 데이터의 기억에 의존하지 않고 실제 추론을 수행하도록 강제했다.
한계점
논문은 현재 벤치마크가 범위 수준의 출처(Provenance)만 보존할 뿐, 집계(Aggregation)의 정확성을 완전히 보장하지 못하며 사후적인 셀 편집이 바인딩을 깨뜨릴 수 있는 한계가 있음을 명시했다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.