왜 중요한가
실제 기업 데이터는 여러 시스템에 파편화되어 있고 형식이 일정하지 않아 기존 벤치마크로는 에이전트의 실질적인 능력을 평가하기 어렵다. 이 논문은 다중 DB 통합과 비정형 텍스트 변환 등 실무적 난제를 포함한 최초의 엔드투엔드 데이터 에이전트 벤치마크인 DAB를 제안하여 연구 방향을 제시한다.
핵심 기여
DAB(Data Agent Benchmark) 구축
12개 데이터셋, 9개 도메인, 4개 DBMS를 아우르는 54개의 자연어 쿼리로 구성된 최초의 엔드투엔드 데이터 에이전트 평가용 벤치마크를 설계했다.
실무적 데이터 복잡성 정의
다중 DB 통합, 잘못된 형식의 조인 키, 비정형 텍스트 변환, 도메인 지식이라는 실제 운영 환경에서 발생하는 네 가지 핵심 난제를 정의하고 데이터셋에 반영했다.
프론티어 LLM 에이전트 성능 진단
GPT-5.2, Gemini-3-Pro 등 주요 모델을 평가한 결과, 최고 성능 모델도 pass@1 기준 38%의 낮은 정확도를 기록하며 실무 적용의 한계를 확인했다.
에이전트 실패 모드 체계화
실패 원인을 계획 오류(Incorrect plan), 구현 오류(Incorrect implementation) 등으로 분류하여 분석한 결과, 실패의 85%가 데이터 선택이 아닌 논리적 실행 단계에서 발생함을 규명했다.
핵심 아이디어 이해하기
기존의 데이터 분석 AI 평가는 단일 테이블이나 정제된 환경에서의 쿼리 생성에만 집중했다. 하지만 실제 기업 환경은 PostgreSQL의 고객 정보와 MongoDB의 상담 로그를 결합해야 하는 등 데이터가 파편화되어 있다. 이때 데이터 간 연결 고리인 ID 값에 공백이 섞여 있거나, 핵심 정보가 리뷰 텍스트 안에 문장 형태로 숨겨져 있는 '지저분한 현실'이 에이전트의 발목을 잡는다.
DAB는 이러한 한계를 극복하기 위해 의도적으로 데이터를 오염시키고 변형한다. 예를 들어, Embedding 공간에서의 검색이 아닌 정규 표현식이나 의미론적 추출을 수행해야만 풀 수 있는 쿼리를 배치한다. 이는 에이전트가 단순히 SQL을 잘 쓰는 것을 넘어, 데이터의 상태를 탐색하고 적절한 Python 코드를 작성하여 데이터를 정제 및 병합하는 능력을 갖췄는지 시험한다.
결과적으로 모델의 크기보다 데이터 탐색(Exploration) 전략이 성능을 좌우한다는 점이 밝혀졌다. 도구 호출의 약 20%를 데이터 구조 파악에 할당하는 에이전트들이 가장 높은 성과를 거두었으며, 이는 향후 에이전트 설계 시 단순 추론보다 체계적인 데이터 탐색 메커니즘이 필수적임을 시사한다.
방법론
벤치마크 구축을 위해 6개 산업 분야의 실제 워크로드를 분석하여 4가지 핵심 속성을 도출했다. 오픈소스 데이터셋을 기반으로 조인 키에 무작위 공백을 추가하거나, 정형 데이터를 GPT-4o를 이용해 자연어 문장으로 재구성하여 텍스트 필드에 매립하는 방식으로 현실적인 난이도를 구현했다. 데이터는 PostgreSQL, MongoDB, SQLite, DuckDB 등 이종 DBMS에 분산 배치하여 시스템 간 통합 능력을 요구하도록 설계했다.
에이전트는 ReAct 루프를 통해 동작하며 list_db, query_db, execute_python, return_answer 도구를 사용한다. 각 도구 호출 결과는 JSON으로 관리되며, 10,000자 이상의 대규모 결과값은 파일로 저장된다. 에이전트는 이 파일 경로를 전달받아 필요시 execute_python 도구로 전체 데이터를 읽어와 처리한다. 평가 지표인 pass@k는 1 - ((n-c) choose k) / (n choose k) 공식을 통해 계산된다. [전체 시도 n과 성공 횟수 c를 입력으로] → [조합 연산을 통해 k번 모두 실패할 확률을 계산하고 1에서 빼서] → [k번 시도 중 적어도 한 번 성공할 확률을 얻고] → [이 값은 모델의 잠재적 해결 능력을 의미한다].
주요 결과
Gemini-3-Pro가 38%의 pass@1 정확도로 1위를 차지했으며, GPT-5-mini(30%), GPT-5.2(25%)가 뒤를 이었다. 특히 특허(patents) 데이터셋은 모든 모델이 단 한 번도 성공하지 못해 비정형 텍스트 추출의 높은 벽을 실감케 했다. 비용 대비 효율성에서는 GPT-5-mini가 Gemini-3-Pro보다 20배 저렴하면서도 준수한 성능을 보여 최적의 가성비를 기록했다.
실패 원인 분석 결과, 잘못된 구현(45%)과 잘못된 계획 수립(40%)이 전체 실패의 85%를 차지했다. 반면 데이터 소스를 잘못 선택한 경우는 15%에 불과했다. 이는 모델들이 필요한 데이터가 어디에 있는지는 잘 찾지만, 이를 어떻게 가공하고 결합할지에 대한 논리적 실행 단계에서 주로 실패함을 보여준다. 또한 모든 모델이 텍스트 추출에 정규 표현식만 사용하고 NLP 기반 전용 도구를 활용하지 못하는 한계가 관찰됐다.
실무 활용
기업용 데이터 분석 에이전트의 실무 적합성을 객관적으로 검증하고 취약점을 파악하는 벤치마크로 활용 가능하다. 특히 파편화된 데이터베이스 환경에서의 통합 분석 능력을 평가하는 데 최적화되어 있다.
- 이종 DBMS(SQL, NoSQL) 통합 분석 에이전트의 엔드투엔드 성능 테스트
- 비정형 텍스트 내 구조적 정보 추출 워크플로우의 정확도 검증
- 데이터 분석 에이전트의 계획 수립 및 Python 코드 생성 로직 개선 연구
기술 상세
DAB는 PostgreSQL의 관계형 데이터와 MongoDB의 문서형 데이터를 동시에 쿼리해야 하는 시나리오를 포함한다. 에이전트는 각 DBMS의 고유 쿼리 언어를 구사해야 하며, 추출된 서로 다른 형식의 데이터를 Python 환경에서 병합(Merge)해야 한다. 컨텍스트 관리를 위해 도구 출력값이 입력 토큰 제한을 넘지 않도록 10,000자에서 절단하고 전체 데이터는 로컬 파일 시스템에 보관하는 메커니즘을 채택했다.
텍스트 변환 평가를 위해 GPT-4o를 활용해 정형 컬럼을 자연어 문장으로 재구성하여 삽입했다. 예를 들어 'Star' 컬럼의 숫자 5를 'This book is rated 5 stars'라는 문장으로 바꾸어 리뷰 텍스트에 포함시켰다. 에이전트는 이를 다시 숫자로 추출해야 쿼리를 완수할 수 있다. 구현 상세에서는 ReAct 루프를 최대 100회까지 허용하며, 각 도구 호출에는 600초의 타임아웃을 설정하여 실행 안정성을 확보했다.
한계점
정답 문자열 포함 여부만 확인하는 결정론적 검증 방식은 정밀도(Precision)보다 재현율(Recall)을 과대평가할 위험이 있다. 또한 실시간 API 연동이나 열린 결말의 분석 쿼리는 재현성 확보가 어려워 이번 벤치마크 버전에서 제외되었다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.