The Batch: Nvidia의 초고속 오픈소스 모델과 OpenAI-Amazon의 에이전트 인프라 협력

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Nvidia가 Mamba-2와 Transformer, MoE를 결합한 하이브리드 아키텍처 기반의 Nemotron 3 Super 120B 모델을 오픈소스로 공개하며 시장에 새로운 기준을 제시했다. OpenAI는 Microsoft Azure 독점 체제에서 벗어나 Amazon AWS와 손잡고 에이전트의 메모리와 상태를 관리하는 'Stateful Runtime Environment'를 구축하기로 발표했다. xAI는 기존 경쟁 모델 대비 훨씬 저렴한 비용으로 고품질 영상을 생성하는 Grok Imagine 1.0을 출시해 영상 생성 AI 시장의 가격 경쟁을 가속화했다. 또한 MIT 연구진은 긴 컨텍스트를 외부 변수로 처리해 모델의 물리적 한계를 극복하는 Recursive Language Models(RLM) 기법을 제안하여 100만 토큰 이상의 데이터 처리 가능성을 입증했다.

배경

LLM 아키텍처(Transformer, MoE)에 대한 기본 이해, 클라우드 컴퓨팅 및 API 상태 관리(Stateless vs Stateful) 개념, Python 기반 에이전트 프레임워크 지식

대상 독자

AI 에이전트 개발자 및 클라우드 인프라 전략가

의미 / 영향

Nvidia의 고성능 오픈소스 모델 공개와 OpenAI의 멀티 클라우드 전략은 특정 기업의 독점을 완화하고 기술 접근성을 높이는 계기가 될 것입니다. 특히 에이전트 전용 상태 저장 인프라와 RLM 같은 기술은 LLM이 단순한 채팅 도구를 넘어 자율적인 작업 수행자로 진화하는 데 핵심적인 역할을 할 것입니다.

섹션별 상세

Nvidia는 Mamba-2와 Transformer, MoE를 결합한 하이브리드 아키텍처의 Nemotron 3 Super 120B-A12B 모델을 출시했다. 이 모델은 NVFP4 4비트 부동 소수점 형식을 학습 단계부터 적용하여 추론 속도를 극대화했으며, 초당 442개 토큰을 생성하는 압도적인 성능을 기록했다. 100만 토큰의 컨텍스트 윈도우를 지원하며 에이전트 작업 벤치마크인 PinchBench에서 기존 대형 모델들을 능가하는 효율성을 보여주었다. 하드웨어 제조사가 직접 모델 아키텍처를 최적화함으로써 소프트웨어와 하드웨어의 결합이 가져오는 성능 이점을 증명했다.

Nemotron 3 모델의 정확도와 처리량을 타 모델과 비교한 벤치마크 차트입니다. — ChartNemotron 3 Super 120B 모델이 수학, 코딩, 도구 사용 등 다양한 지표에서 경쟁 모델인 Qwen3.5 및 GPT-OSS와 대등하거나 우수한 성능을 보임을 나타냅니다. 특히 오른쪽의 Throughput 차트에서 타 모델 대비 압도적인 토큰 생성 속도를 시각적으로 확인할 수 있습니다.

OpenAI와 Amazon은 에이전트의 작업 상태와 메모리를 유지하는 'Stateful Runtime Environment'를 AWS Bedrock에 구축하는 파트너십을 체결했다. 기존의 상태 비저장(Stateless) API와 달리, 이 환경은 에이전트가 복잡한 다단계 워크플로를 수행할 때 중간 과정을 기억하고 도구 연결 및 권한을 관리할 수 있게 돕는다. Amazon은 OpenAI에 총 500억 달러 규모의 투자를 약속했으며, OpenAI는 Amazon의 Trainium 칩을 대규모로 도입하여 인프라를 다각화한다. 이는 Microsoft와의 긴밀한 관계가 완화되고 클라우드 시장의 경쟁 구도가 재편되고 있음을 시사한다.

xAI가 출시한 Grok Imagine 1.0은 텍스트와 이미지를 기반으로 최대 15초 분량의 고품질 영상을 생성하며 벤치마크 1위를 차지했다. Artificial Analysis Video Arena에서 Runway Gen-4.5와 Google Veo 3.1을 제치고 텍스트 및 이미지 기반 영상 생성 부문에서 모두 선두에 올랐다. 특히 분당 4.20달러라는 가격은 OpenAI Sora 2 Pro의 30달러 대비 7배 이상 저렴하여 실무자들의 반복적인 실험 비용을 획기적으로 낮췄다. 영상 생성 기술이 단순한 신기함을 넘어 실제 프로덕션에서 활용 가능한 경제성을 갖추기 시작했음을 보여준다.

MIT 연구진은 긴 문서를 외부 Python 환경의 변수로 처리하고 모델이 코드를 작성해 필요한 부분만 호출하는 Recursive Language Models(RLM) 기법을 개발했다. 모델이 전체 컨텍스트를 한 번에 읽는 대신, 작업을 하위 작업으로 분할하고 스스로를 재귀적으로 호출하여 각 섹션을 처리한 뒤 결과를 취합하는 방식이다. 실험 결과 GPT-5 기반 RLM 시스템은 100만 토큰 이상의 컨텍스트에서도 기존 모델이 실패한 복잡한 추론 작업을 50% 이상의 정확도로 수행했다. 이는 모델의 컨텍스트 윈도우 크기에 의존하지 않고도 방대한 데이터를 정밀하게 처리할 수 있는 새로운 설계 패턴을 제시한다.

GPT-5와 RLM 적용 모델의 컨텍스트 길이에 따른 성능 변화를 보여주는 그래프입니다. — Chart상단 그래프에서 일반 GPT-5는 컨텍스트가 길어질수록 성능이 급격히 하락하지만, 하단 그래프의 RLM 적용 모델은 100만 토큰(1M) 영역에서도 성능을 안정적으로 유지함을 보여줍니다. 이는 외부 변수 관리 방식이 긴 문맥 처리의 한계를 극복하는 데 효과적임을 입증하는 핵심 근거입니다.

실무 Takeaway

Nvidia Nemotron 3는 NVFP4 형식을 활용해 추론 속도를 초당 442토큰까지 끌어올려, 실시간 응답이 중요한 에이전트 서비스에 최적의 대안을 제공한다.
OpenAI와 Amazon의 협력으로 제공될 'Stateful Runtime'은 개발자가 직접 구현하던 복잡한 에이전트 메모리 관리 로직을 인프라 수준에서 해결해준다.
RLM 기법을 적용하면 모델의 물리적 컨텍스트 제한을 넘어 수백만 토큰의 코드베이스나 문서 뭉치를 정확하게 분석하는 에이전트를 구축할 수 있다.

언급된 리소스

튜토리얼Agent Skills with Anthropic Course

GitHubNemotron 3 Super 120B Weights