데이터 사이언티스트처럼 사고하는 에이전트 구축: 재사용 가능한 도구 생성으로 DABStep 1위 달성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

데이터 분석 에이전트는 인터넷 텍스트 검색에는 능숙하지만 복잡한 다단계 쿼리가 필요한 정형 데이터 처리에는 한계를 보였다. NVIDIA KGMON 팀은 이를 해결하기 위해 '학습-추론-오프라인 성찰'로 이어지는 3단계 아키텍처인 NVIDIA KGMON Data Explorer를 개발했다. 이 시스템은 고성능 모델로 재사용 가능한 도구 라이브러리를 먼저 구축한 뒤, 가벼운 모델로 이를 실행하여 성능과 효율을 극대화했다. 그 결과 DABStep 벤치마크에서 Claude Code 대비 30배 빠른 속도와 압도적인 정확도로 1위를 차지했다.

배경

LLM 에이전트 아키텍처(ReAct 등)에 대한 이해, 파이썬 기반 데이터 분석 및 Pandas 라이브러리 지식, NVIDIA NeMo 프레임워크에 대한 기본 배경

대상 독자

데이터 사이언티스트, LLM 에이전트 개발자, MLOps 엔지니어

의미 / 영향

이 아키텍처는 정형 데이터 분석 비용을 낮추면서도 복잡한 추론 성능을 극대화할 수 있는 실무적 패턴을 제시한다. 특히 도구 생성(Tool Generation)과 실행(Inference)을 분리하는 전략은 대규모 데이터 분석 파이프라인에서 효율성과 정확도를 동시에 잡는 표준 모델이 될 가능성이 높다.

섹션별 상세

NVIDIA KGMON Data Explorer는 NeMo Agent Toolkit을 기반으로 구축된 정형 데이터 분석 특화 자율 에이전트이다.

시스템은 오픈 엔드 탐색적 데이터 분석(EDA)과 다단계 규칙 기반 정형 데이터 QA라는 두 가지 핵심 워크플로를 지원한다.

EDA 루프에서는 ReAct 에이전트가 Jupyter Notebook 도구를 조작하며, 생성된 시각화 결과물은 VLM을 통해 텍스트 분석으로 변환되어 에이전트의 다음 판단에 반영된다.

DABStep 벤치마크 공략을 위한 3단계 접근법 중 첫 번째인 학습 단계(Phase 1)에서는 고성능 모델이 여러 과제를 풀며 공통 로직을 추출하고 이를 helper.py라는 재사용 가능한 함수 라이브러리로 캡슐화한다.

두 번째 단계인 고속 추론(Phase 2)에서는 가벼운 모델이 미리 구축된 helper.py의 함수 시그니처만 참조하여 매우 적은 토큰 소모와 짧은 지연 시간으로 정답을 도출한다.

세 번째 단계인 오프라인 성찰(Phase 3)에서는 무거운 모델이 에이전트의 실행 결과와 일관성을 검토하여 얻은 인사이트를 다음 추론의 시스템 프롬프트에 주입하는 방식으로 성능을 지속적으로 개선한다.

벤치마크 결과, NVIDIA의 방식은 고난도 과제에서 89.95점을 기록하여 Claude Code(66.93점)를 크게 앞질렀으며 작업당 소요 시간은 10분에서 20초로 단축됐다.

NVIDIA KGMON Data Explorer와 기존 모델들의 DABStep 벤치마크 성능 비교표이다. — ChartNVIDIA의 아키텍처가 고난도(Hard) 과제에서 89.95점을 기록하여 Claude Code(66.93점) 및 Google AI의 DS-STAR(45.24점)를 압도함을 보여준다. 특히 작업당 소요 시간이 10분에서 20초로 단축되고 코드 길이도 획기적으로 줄어들었음을 수치로 증명한다.

실무 Takeaway

복잡한 데이터 분석 시 매번 코드를 처음부터 짜는 대신 고성능 모델로 공통 도구 라이브러리를 먼저 구축하면 추론 속도를 30배 이상 높일 수 있다.
시각화 자료를 VLM으로 분석하여 텍스트 피드백으로 변환해 에이전트에게 전달하면 데이터의 의미를 더 정확하게 파악하고 오류를 수정할 수 있다.
무거운 모델의 검증 과정을 오프라인 성찰 단계로 분리하고 그 결과를 프롬프트에 주입함으로써 실시간 추론 비용과 지연 시간을 획기적으로 절감할 수 있다.

언급된 리소스

GitHubNVIDIA NeMo Agent Toolkit

문서DABStep Benchmark