NVIDIA Blackwell Ultra, 에이전트형 AI를 위한 35배 비용 절감 및 50배 성능 향상 달성

핵심 요약

AI 에이전트와 코딩 어시스턴트의 급증으로 저지연 및 긴 컨텍스트 처리 능력이 중요해진 가운데, NVIDIA는 차세대 Blackwell Ultra 플랫폼을 공개했다. GB300 NVL72 시스템은 소프트웨어 최적화와 결합하여 Hopper 플랫폼 대비 메가와트당 처리량을 50배 높였으며, 이는 토큰당 비용 35배 절감으로 이어진다. 특히 긴 컨텍스트(128k 토큰) 작업에서 GB200 대비 1.5배의 경제성을 제공하며, 향후 Rubin 플랫폼을 통해 성능을 더욱 확장할 계획이다.

배경

NVIDIA Blackwell 아키텍처에 대한 기본 이해, LLM 추론 및 토큰 경제학(Tokenomics) 개념, TensorRT-LLM 등 NVIDIA 소프트웨어 스택 지식

대상 독자

AI 인프라 설계자 및 대규모 LLM 서비스를 운영하는 개발자

의미 / 영향

이 기술은 LLM 추론 비용을 획기적으로 낮춰 복잡한 추론 과정을 거치는 에이전트형 AI의 상용화를 가속화할 것이다. 특히 전력 효율이 50배 향상됨에 따라 데이터 센터의 운영 비용 부담이 크게 줄어들 것으로 예상된다.

섹션별 상세

Blackwell Ultra 플랫폼은 하드웨어와 소프트웨어의 긴밀한 통합(Codesign)을 통해 추론 성능의 한계를 돌파했다. TensorRT-LLM, NVIDIA Dynamo, SGLang 등의 소프트웨어 최적화는 불과 4개월 만에 저지연 워크로드 성능을 5배 향상시켰다. 특히 NVLink Symmetric Memory와 커널 실행 최적화 기술은 GPU 간 통신 효율을 극대화하고 유휴 시간을 최소화하여 Blackwell의 연산 능력을 최대한 활용한다.

GB300 NVL72 시스템은 에이전트형 AI(Agentic AI)에 최적화된 경제성을 제공한다. Hopper 플랫폼과 비교했을 때 메가와트당 처리량은 50배 증가했으며, 백만 토큰당 비용은 최대 35배까지 낮아졌다. 이러한 비용 절감은 실시간 응답이 필수적인 멀티스텝 워크플로우와 코딩 어시스턴트 서비스의 대규모 확장을 가능하게 한다.

긴 컨텍스트(Long-context) 처리 능력에서 GB300은 이전 세대인 GB200보다 뛰어난 효율을 보여준다. 128,000개의 입력 토큰과 8,000개의 출력 토큰을 처리하는 시나리오에서 GB300 NVL72는 GB200 대비 1.5배 낮은 토큰당 비용을 달성했다. 이는 Blackwell Ultra가 1.5배 높은 NVFP4 연산 성능과 2배 빠른 어텐션(Attention) 처리 능력을 갖추었기 때문에 가능하다.

NVIDIA는 Blackwell 이후의 차세대 플랫폼인 Rubin에 대한 로드맵을 제시했다. Rubin 플랫폼은 6개의 새로운 칩을 결합한 AI 슈퍼컴퓨터로, Blackwell 대비 메가와트당 처리량을 10배 더 높일 것으로 예상된다. 또한 차세대 프론티어 AI 모델 학습 시 Blackwell 대비 4분의 1 수준의 GPU만으로도 동일한 성능을 낼 수 있어 인프라 효율성을 극대화한다.

이미지 분석

Other
새로운 칩들이 성능뿐만 아니라 TCO(총 소유 비용) 측면에서도 가장 경제적인 선택임을 강조하며 기사의 핵심 주장을 뒷받침한다.
NVIDIA의 세대 간 성능 향상과 경제성에 대한 SemiAnalysis의 분석 인용구이다.

Chart
GB300 NVL72가 Hopper(H200) 대비 토큰 비용을 35배 절감함을 시각적으로 보여주며, 특히 인터랙티비티가 높은 구간에서의 우위를 증명한다.
DeepSeek-R1 모델을 기준으로 H200 FP8과 GB300 NVL72 NVFP4의 토큰당 비용을 비교한 차트이다.

Chart
GB300 NVL72가 이전 세대인 GB200보다 1.5배 더 낮은 비용으로 긴 컨텍스트 작업을 처리할 수 있음을 수치로 나타낸다.
128k/8k 롱 컨텍스트 환경에서 GB200과 GB300의 토큰당 비용을 비교한 그래프이다.

Chart
GB300 NVL72가 전력 효율 측면에서 50배의 도약을 이루었음을 보여주며, 데이터 센터 운영 효율성 개선의 근거를 제시한다.
DeepSeek-R1의 와트당 처리량(Throughput per MW)을 H200과 GB300 간에 비교한 차트이다.

실무 Takeaway

에이전트형 AI 도입 시 GB300 NVL72를 활용하면 Hopper 대비 토큰 비용을 35배 절감하여 서비스 운영 수익성을 획기적으로 개선할 수 있다.
128k 이상의 긴 컨텍스트가 필요한 코딩 에이전트 구축 시 GB200보다 GB300이 1.5배 더 경제적이므로 워크로드 특성에 맞는 하드웨어 선택이 필요하다.
NVIDIA의 성능 향상은 칩뿐만 아니라 TensorRT-LLM과 같은 소프트웨어 스택의 지속적인 업데이트에 의존하므로 최신 라이브러리 최적화 상태를 유지해야 한다.

언급된 리소스

문서NVIDIA Rubin Platform