NVIDIA Nemotron 3 Nano, Amazon Bedrock에서 서버리스 모델로 정식 출시

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

NVIDIA의 소형 언어 모델(SLM)인 Nemotron 3 Nano가 Amazon Bedrock에서 완전 관리형 서버리스 모델로 제공된다. 이 모델은 Transformer와 Mamba 아키텍처를 결합한 하이브리드 Mixture-of-Experts(MoE) 구조를 채택하여 추론 효율성과 정확도를 동시에 확보했다. 30B 파라미터 규모임에도 활성 파라미터는 3B에 불과하며, 256K의 긴 컨텍스트 길이를 지원해 복잡한 에이전트 워크플로우에 최적화되어 있다. 개발자는 Bedrock의 Guardrails 및 Knowledge Bases 기능을 활용해 안전하고 강력한 RAG 시스템을 구축할 수 있다.

배경

AWS 계정 및 Amazon Bedrock 권한, Python 및 Boto3 SDK 기본 지식, RAG 및 에이전트 아키텍처에 대한 이해

대상 독자

Amazon Bedrock을 사용하여 고성능 에이전트 및 RAG 시스템을 구축하려는 AI 개발자 및 아키텍트

의미 / 영향

SLM의 성능이 고도화됨에 따라 고비용 대형 모델 대신 Nemotron 3 Nano와 같은 효율적인 모델로 에이전트 워크플로우를 대체하여 운영 비용을 획기적으로 낮출 수 있게 되었다.

섹션별 상세

Nemotron 3 Nano는 Transformer, Mamba, Mixture-of-Experts(MoE) 레이어를 단일 백본에 통합한 하이브리드 구조를 채택했다. Mamba는 낮은 메모리 사용량으로 긴 문맥을 처리하고, Transformer는 코드나 수학적 추론에 필요한 정밀한 주의 집중 기능을 제공하며, MoE는 토큰당 일부 전문가만 활성화하여 추론 속도를 높인다. 이러한 조합은 대규모 동시 워크플로우를 실행하는 에이전트 클러스터에 최적화된 성능을 제공한다.

30B 파라미터 규모임에도 불구하고 실제 추론 시에는 3B 파라미터만 활성화하여 극도의 효율성을 보여준다. SWE Bench Verified, AIME 2025, Arena Hard v2 등 주요 벤치마크에서 동급 오픈 모델들을 압도하는 성적을 거두었으며, 특히 코딩과 과학적 추론 분야에서 뛰어난 정확도를 입증했다. 또한 256K 토큰의 넓은 컨텍스트 창을 통해 방대한 양의 데이터를 한 번에 처리할 수 있다.

Artificial Analysis의 개방성 지수 대비 지능 지수 차트에서 Nemotron 3 Nano의 위치를 보여준다. — ChartNemotron 3 Nano가 높은 지능과 개방성을 동시에 갖춘 '가장 매력적인 사분면'에 위치하고 있음을 시각화한다. 이는 오픈 모델 중에서도 투명성과 성능의 균형이 뛰어남을 입증한다.

지능 지수 대비 출력 속도(토큰/초)를 비교한 벤치마크 차트이다. — ChartNemotron 3 Nano가 초당 약 380토큰의 매우 빠른 속도를 기록하면서도 높은 지능 점수를 유지하고 있음을 보여준다. 이는 에이전트 시스템에서 빠른 응답 속도가 중요함을 강조한다.

Amazon Bedrock의 완전 관리형 서버리스 환경에 통합되어 인프라 관리 부담 없이 즉시 배포가 가능하다. AWS CLI, Boto3 SDK, 그리고 OpenAI 호환 API를 모두 지원하여 기존 애플리케이션에 손쉽게 이식할 수 있다. 모델 ID nvidia.nemotron-nano-3-30b를 통해 InvokeModel 및 Converse API를 호출함으로써 텍스트 생성 및 복잡한 추론 작업을 수행할 수 있다.

Amazon Bedrock 콘솔에서 NVIDIA Nemotron 3 Nano 모델을 선택하는 화면이다. — Screenshot사용자가 Bedrock 환경에서 실제로 모델을 선택하고 적용하는 UI 과정을 단계별로 설명하는 데 도움을 준다.

Amazon Bedrock Guardrails와 Knowledge Bases 기능을 통해 보안과 지식 확장이 용이하다. Guardrails는 유해 콘텐츠 필터링 및 민감 정보 차단을 통해 책임감 있는 AI 구현을 돕고, Knowledge Bases는 데이터 소스 연결부터 벡터 데이터베이스 저장까지 RAG 파이프라인 전체를 자동화한다. 이를 통해 금융 상담이나 기술 지원과 같은 전문적인 도메인에서도 안전하고 정확한 응답 시스템을 구축할 수 있다.

bash

aws bedrock-runtime invoke-model \
--model-id nvidia.nemotron-nano-3-30b \
--region us-west-2 \
--body '{"messages": [{"role": "user", "content": "Type_Your_Prompt_Here"}], "max_tokens": 512, "temperature": 0.5, "top_p": 0.9}' \
--cli-binary-format raw-in-base64-out \
invoke-model-output.txt

AWS CLI를 사용하여 Nemotron 3 Nano 모델을 직접 호출하는 예시

python

import boto3
client = boto3.client("bedrock-runtime", region_name="us-west-2")
model_id = "nvidia.nemotron-nano-3-30b"
conversation = [{"role": "user", "content": [{"text": "Type_Your_Prompt_Here"}]}]
response = client.converse(
    modelId=model_id,
    messages=conversation,
    inferenceConfig={"maxTokens": 512, "temperature": 0.5, "topP": 0.9}
)

Boto3 SDK의 Converse API를 사용하여 모델과 대화를 수행하는 파이썬 코드

python

from openai import OpenAI
client = OpenAI(base_url="https://bedrock-runtime.<region>.amazon.com/openai/v1")
response = client.chat.completions.create(
    model="nvidia.nemotron-nano-3-30b",
    messages=[{"role": "user", "content": "Hello!"}]
)

Amazon Bedrock의 OpenAI 호환 엔드포인트를 사용하는 방법

Bedrock Guardrails가 부적절한 질문을 차단하는 실제 작동 예시이다. — Screenshot'암호화폐 구매 방법'과 같은 금지된 주제에 대해 가드레일이 개입하여 모델의 응답을 차단하고 표준 거절 메시지를 출력하는 과정을 보여준다.

실무 Takeaway

에이전트 기반 시스템 구축 시 Nemotron 3 Nano의 하이브리드 MoE 아키텍처를 활용하면 3B 모델 수준의 비용으로 30B급의 고성능 추론 결과를 얻을 수 있다.
256K의 긴 컨텍스트가 필요한 RAG 시스템에서 Amazon Bedrock Knowledge Bases와 연동하여 대규모 기술 문서나 법률 데이터를 효율적으로 처리할 수 있다.
금융이나 의료 등 규제가 엄격한 산업군에서는 Bedrock Guardrails를 적용하여 특정 주제에 대한 답변을 제한하고 개인정보 노출을 방지하는 안전 장치를 마련해야 한다.

언급된 리소스

문서Inside NVIDIA Nemotron 3: Techniques, Tools, and Data That Make It Efficient and Accurate

API DocsAmazon Bedrock User Guide - Knowledge Bases