NVIDIA AI-Q, DeepResearch Bench I 및 II에서 1위 달성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

NVIDIA는 자사의 오픈 에이전트 청사진인 AI-Q가 DeepResearch Bench I과 II에서 모두 1위를 차지했다고 발표했다. AI-Q는 오케스트레이터, 플래너, 리서처로 구성된 멀티 에이전트 구조를 채택하여 복잡한 웹 및 기업 데이터 분석을 수행한다. 특히 67,000개의 궤적 데이터를 활용해 미세 조정된 Nemotron 3 Super 모델과 장기 추론 안정성을 위한 커스텀 미들웨어가 핵심적인 역할을 한다. 이 시스템은 오픈 소스 도구인 NeMo Agent Toolkit을 기반으로 구축되어 기업이 직접 커스터마이징하고 소유할 수 있는 유연성을 제공한다.

배경

LLM 에이전트 아키텍처에 대한 기본 이해, NVIDIA NeMo 및 Nemotron 모델 생태계 지식, RAG 및 도구 호출(Tool Calling) 개념

대상 독자

엔터프라이즈 AI 에이전트 개발자 및 데이터 과학자

의미 / 영향

NVIDIA AI-Q의 성공은 오픈 소스 모델과 툴킷만으로도 세계 최고 수준의 리서치 에이전트를 구축할 수 있음을 보여준다. 이는 기업들이 데이터 보안을 유지하면서도 고성능의 맞춤형 연구 도구를 직접 소유하고 운영할 수 있는 길을 열어준다.

섹션별 상세

NVIDIA AI-Q는 DeepResearch Bench I(55.95점)과 II(54.50점)에서 동시에 1위를 기록하며 딥 리서치 에이전트 분야의 새로운 기준을 제시했다. Bench I은 보고서의 전반적인 품질과 서사 구조를 평가하며, Bench II는 정보 회상 및 분석의 정확성을 70개 이상의 세부 항목으로 검증한다. 두 벤치마크에서의 동시 1위는 AI-Q가 세련된 보고서 작성 능력과 정교한 데이터 추출 능력을 모두 갖췄음을 입증한다.

AI-Q의 핵심 아키텍처는 오케스트레이터(Orchestrator), 플래너(Planner), 리서처(Researcher)의 세 가지 주요 컴포넌트로 구성된 멀티 에이전트 시스템이다. 플래너는 정보 지형을 먼저 파악한 후 증거 기반의 연구 계획을 설계하며, 리서처는 증거 수집가, 메커니즘 탐색기, 비교 분석기 등 다양한 전문 서브 에이전트를 병렬로 실행한다. 이러한 구조는 각 에이전트가 독립적인 컨텍스트 윈도우를 사용하게 함으로써 긴 검색 결과로 인한 추론 성능 저하를 방지한다.

AI-Q 딥 리서처의 오케스트레이터, 플래너, 리서처 파이프라인과 앙상블 구조를 보여주는 아키텍처 다이어그램이다. — Diagram전체 시스템의 데이터 흐름과 에이전트 간의 상호작용 방식을 시각화한다. 왼쪽의 앙상블 레이어와 오른쪽의 핵심 파이프라인 구성을 통해 AI-Q가 어떻게 고품질 보고서를 생성하는지 나타낸다.

성능 극대화를 위해 NVIDIA Nemotron-3-Super-120B-A12B 모델을 67,000개의 연구 및 합성 궤적 데이터를 사용하여 미세 조정했다. 학습 데이터는 OpenScholar, ResearchQA 등에서 수집한 질문을 바탕으로 GPT-OSS-120B 모델을 통해 생성된 8만 개의 궤적 중 품질 필터링을 거쳐 선별되었다. 16대의 NVIDIA H100 GPU 노드에서 약 25시간 동안 SFT(Supervised Fine-Tuning)를 진행하여 도구 호출 및 인용 기반 보고 능력을 최적화했다.

장기 실행(Long-horizon) 에이전트의 신뢰성을 높이기 위해 네 가지 커스텀 미들웨어를 도입했다. 도구 이름 환각을 방지하는 '도구 이름 정제', 추론 토큰만 생성되고 도구 호출이 누락될 때 재시도하는 '추론 인식 재시도', 도구 호출 한도를 관리하는 '예산 강제', 그리고 최종 보고서의 구조와 길이를 검증하는 '보고서 유효성 검사'가 포함된다. 이러한 장치들은 32단계 이상의 복잡한 상호작용 과정에서 발생할 수 있는 시스템 실패를 효과적으로 방지한다.

실무 Takeaway

반복적인 연구 작업이 필요한 기업 환경에서 AI-Q의 멀티 에이전트 아키텍처를 도입하면 정보 회상력과 분석의 깊이를 동시에 확보할 수 있다.
NeMo Agent Toolkit과 Nemotron 3 모델을 조합하여 특정 도메인에 맞게 미세 조정하면 상용 폐쇄형 모델 수준의 리서치 성능을 오픈 소스 기반으로 구현 가능하다.
에이전트 시스템 구축 시 도구 이름 정제 및 예산 관리와 같은 미들웨어를 적용하여 장기 추론 과정에서의 안정성을 획기적으로 개선할 수 있다.

언급된 리소스

GitHubNVIDIA NeMo Agent Toolkit

DemoDeepResearch Bench