NVIDIA가 AI 커뮤니티를 위해 오픈 데이터를 구축하는 방법

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

AI 모델의 성능은 결국 학습 데이터에 의해 결정되지만 고품질 데이터 구축은 막대한 비용과 시간이 소요되는 병목 구간이다. NVIDIA는 이를 해결하기 위해 2페타바이트 이상의 AI 학습 데이터를 Hugging Face에 공개하고 GitHub를 통해 학습 레시피를 공유하고 있다. 로보틱스, 합성 페르소나, 생물학 등 실질적인 도메인 데이터를 포함하며 특히 Nemotron 모델 제품군의 성능 향상을 이끈 데이터 진화 과정을 상세히 공개한다. 이러한 오픈 데이터 전략은 개발자들이 더 빠르고 저렴하게 신뢰할 수 있는 AI 시스템과 에이전트를 구축할 수 있도록 지원하는 것을 목표로 한다.

배경

LLM 학습 및 파인튜닝 프로세스에 대한 이해, Hugging Face 데이터셋 라이브러리 사용법, 기본적인 로보틱스 및 자율 주행 데이터 구조 지식

대상 독자

프로덕션 환경에서 LLM 및 에이전트 시스템을 구축하는 AI 개발자 및 연구자

의미 / 영향

NVIDIA의 대규모 데이터 공개는 데이터 확보가 어려운 중소 규모 기업과 연구소의 진입 장벽을 낮추는 역할을 한다. 특히 합성 데이터와 도메인 특화 데이터셋의 표준화된 제공은 주권 AI와 로보틱스 분야의 기술 발전을 가속화할 것으로 전망된다.

섹션별 상세

NVIDIA는 AI 개발의 최대 병목인 데이터 구축 비용과 시간을 줄이기 위해 180개 이상의 데이터셋과 650개 이상의 오픈 모델을 공개했다. 현재까지 2PB 이상의 데이터를 공유했으며 이는 로보틱스, 자율 주행, 생물학 등 실제 산업 현장에서 즉시 활용 가능한 수준의 품질을 갖추고 있다.

Physical AI 컬렉션은 로보틱스와 자율 주행 연구를 위해 50만 개 이상의 로봇 궤적과 15TB의 멀티모달 데이터를 포함한다. 이 데이터는 NVIDIA GR00T 모델 개발에 사용되었으며 Runway와 같은 기업들이 이를 활용해 세계 모델을 구축하는 등 실질적인 성과로 이어지고 있다.

Nemotron Personas 컬렉션은 실제 인구 통계 분포를 반영한 대규모 합성 페르소나 데이터셋으로 주권 AI 개발을 지원한다. 일본, 인도, 브라질 등 지역별 특화 데이터를 통해 CrowdStrike는 자연어-쿼리 변환 정확도를 50.7%에서 90.4%로 향상시켰고 일본 NTT Data는 법률 QA 정확도를 79.3%까지 끌어올렸다.

Nemotron 모델의 성능 향상을 위해 데이터셋은 일반 웹 코퍼스에서 수학, 코드, STEM 등 고신호 도메인 중심으로 진화했다. Nemotron-CC-Math, Nemotron-CC-Code 등 특화 데이터셋은 모델의 추론 능력을 강화하며 CLIMB 알고리즘을 적용한 Nemotron-ClimbMix는 H100 컴퓨팅 시간을 약 33% 절감하는 효율성을 입증했다.

포스트 트레이닝 단계에서는 다국어 다양성과 구조화된 추론 감독을 강조하는 데이터셋을 활용한다. Nemotron-Agentic 및 Nemotron-RL 데이터셋은 에이전트의 다단계 계획 수립과 도구 사용 능력을 학습시키며 이는 ServiceNow의 Apriel 모델이 15B 파라미터 규모에서 Gemini 2.5 Flash를 능가하는 기반이 되었다.

실무 Takeaway

고품질 데이터 구축에 소요되는 시간과 비용을 절감하기 위해 NVIDIA가 공개한 도메인별 오픈 데이터셋과 학습 레시피를 적극 활용해야 한다.
특정 지역이나 언어에 특화된 AI 모델을 개발할 때 Nemotron Personas와 같은 합성 페르소나 데이터를 사용하면 부족한 로컬 데이터를 보완하고 정확도를 높일 수 있다.
모델 학습 효율을 높이려면 단순한 데이터 양보다 CLIMB 알고리즘과 같은 임베딩 기반 클러스터링 기법을 통해 고신호 데이터를 선별하는 것이 컴퓨팅 자원 절감에 핵심적이다.

언급된 리소스

문서NVIDIA Open Datasets on Hugging Face

GitHubNVIDIA Training Recipes on GitHub