핵심 요약
텍스트, 이미지, 비디오에 이어 오디오까지 네이티브로 지원하는 효율적인 소형 멀티모달 모델의 등장을 알립니다. 특히 Mixture-of-Experts(MoE) 구조를 채택하여 낮은 지연 시간과 높은 처리량을 동시에 달성함으로써 실무 환경에서의 활용성을 극대화했습니다.
왜 중요한가
텍스트, 이미지, 비디오에 이어 오디오까지 네이티브로 지원하는 효율적인 소형 멀티모달 모델의 등장을 알립니다. 특히 Mixture-of-Experts(MoE) 구조를 채택하여 낮은 지연 시간과 높은 처리량을 동시에 달성함으로써 실무 환경에서의 활용성을 극대화했습니다.
핵심 기여
네이티브 오디오 지원 및 옴니모달 확장
기존 텍스트, 이미지, 비디오 외에 오디오 입력을 네이티브로 지원하도록 확장하여 진정한 의미의 옴니모달(Omni-modal) 지능을 구현했다.
Nemotron 3 Nano 30B-A3B MoE 백본 채택
기존의 밀집(Dense) 모델 대신 30B 파라미터 중 3B만 활성화되는 MoE 구조를 도입하여 추론 효율성을 대폭 향상시켰다.
멀티모달 토큰 감소 기법 도입
Conv3D 기반의 시간적 비디오 압축과 픽셀 셔플 다운샘플링을 통해 모델 품질 저하 없이 추론 지연 시간을 줄이고 처리량을 높였다.
256K 확장된 컨텍스트 길이 지원
최대 컨텍스트 길이를 128K에서 256K로 확장하여 긴 문서 이해 및 장시간 오디오-비디오 추론 성능을 개선했다.
핵심 아이디어 이해하기
기존의 멀티모달 모델은 주로 이미지와 텍스트의 정렬에 집중해 왔으며, 비디오나 오디오는 별도의 어댑터를 통해 처리하거나 토큰 수가 너무 많아져 실시간 추론에 한계가 있었다. 특히 시퀀스 길이가 길어질수록 Transformer의 Attention 연산 비용이 급증하여 긴 영상이나 문서를 처리하는 데 병목 현상이 발생한다.
Nemotron 3 Nano Omni는 이러한 한계를 해결하기 위해 Mixture-of-Experts(MoE) 구조를 도입했다. MoE는 입력 토큰마다 필요한 전문가(Expert) 레이어만 활성화하여 연산량을 조절하므로, 30B 규모의 지능을 유지하면서도 실제 연산은 3B 수준으로 수행하여 처리량을 높인다. 여기에 Conv3D를 활용해 비디오 프레임 간의 중복된 정보를 압축함으로써 입력 토큰 수 자체를 절반으로 줄이는 전략을 취했다.
결과적으로 이 모델은 오디오 신호를 직접 임베딩 공간으로 투사하여 텍스트와 동일한 위상에서 처리하며, 동적 해상도 조절을 통해 이미지의 가로세로비를 보존하면서도 효율적인 연산이 가능하도록 설계되었다. 이는 소형 모델에서도 고성능 멀티모달 추론이 가능함을 시사한다.
방법론
전체 아키텍처는 Encoder-Projector-Decoder 구조를 따른다. 시각 정보는 C-RADIOv4-H 인코더를, 오디오 정보는 Parakeet-TDT-0.6B-v2 인코더를 사용하여 추출하며, 각각 MLP Projector를 통해 Nemotron 3 Nano 30B-A3B LLM 백본의 임베딩 공간으로 연결된다.
이미지 처리를 위해 기존의 타일링 방식 대신 동적 해상도(Dynamic Resolution) 전략을 사용한다. 입력 이미지를 16x16 패치로 분해하되, 전체 시각 토큰 수를 1,024개에서 13,312개 사이로 제한하여 해상도와 연산량 사이의 균형을 맞춘다. 프로젝션 전 단계에서 4x 픽셀 셔플 다운샘플링을 적용하여 언어 모델에 전달되는 토큰 수를 최적화한다.
비디오 데이터의 경우 Conv3D 패치 임베더를 도입했다. 인접한 두 프레임을 하나의 토큰 뭉치로 압축하여 시간 축 방향으로 토큰 수를 2배 감소시킨다. 오디오는 16kHz 모노로 샘플링된 후 log-mel spectrogram 특징으로 변환되며, 3개의 stride-2 컨볼루션 레이어를 거쳐 약 8배의 시간적 다운샘플링이 수행된다. [오디오 신호 입력 → 컨볼루션 연산 → 초당 약 12.5개 토큰 출력 → 언어 모델 입력 의미]
관련 Figure

오디오, 비디오, 이미지, 텍스트가 각각 전전용 인코더와 어댑터를 거쳐 하나의 공통된 Nemotron 3 Nano 30B-A3B LLM 백본으로 입력되는 과정을 보여줍니다. 특히 비디오의 3D Convolution과 이미지의 동적 해상도 처리가 핵심적인 토큰 감소 메커니즘임을 시각화하고 있습니다.
Nemotron 3 Nano Omni의 전체 아키텍처 다이어그램
주요 결과
NVIDIA B200 GPU에서 측정된 결과, Nemotron 3 Nano Omni는 Qwen3-Omni 대비 3배 높은 단일 스트림 토큰 처리량을 기록했으며, GPU당 출력 처리량은 최대 9배까지 높게 나타났다. 특히 문서 이해(MMLongBench-Doc)와 오디오-비디오 추론 벤치마크에서 이전 모델인 Nemotron Nano V2 VL을 크게 상회하는 성능을 보였다.
시각적 벤치마크인 MMMU에서 70.8%, MathVista-Mini에서 82.8%를 기록하며 강력한 추론 능력을 입증했다. 오디오 분야에서도 OpenASR 평균 단어 오류율(WER) 5.95%를 달성하여 Qwen 계열 모델보다 우수한 성능을 보였다. 256K 컨텍스트 확장을 통해 100페이지 이상의 긴 문서 분석 능력도 확보했다.
기술 상세
모델은 7단계의 점진적 지도 학습(SFT)과 다단계 강화 학습(RL)을 통해 훈련되었다. SFT 과정에서는 Vision Projector 워밍업부터 시작하여 오디오 모달리티를 추가하고, 최종적으로 256K까지 컨텍스트 길이를 확장하는 커리큘럼 학습 방식을 채택했다. 이는 급격한 모달리티 추가로 인한 기존 텍스트 추론 능력의 저하(Catastrophic Forgetting)를 방지하기 위함이다.
강화 학습 단계에서는 Mixed Preference Optimization(MPO)을 사용하여 선호도와 품질을 동시에 최적화했다. 특히 오디오-비디오 데이터에 대해 직접적인 보상을 주는 Omni-RL 단계를 포함하여 여러 모달리티 간의 일관된 추론이 가능하도록 정렬했다. 훈련 효율성을 위해 32-way Expert Parallelism(EP)과 Sequence Parallelism을 적용했으며, BF16 혼합 정밀도 훈련을 수행했다.
한계점
논문은 오디오-비디오 이해 능력의 향상에도 불구하고, 매우 복잡한 시간적 인과 관계나 미세한 오디오 신호의 차이를 구분하는 데에는 여전히 개선의 여지가 있음을 시사합니다.
실무 활용
MoE 구조와 토큰 압축 기술 덕분에 온디바이스 또는 소규모 서버 환경에서 고성능 멀티모달 서비스를 구축하는 데 매우 적합합니다.
- 실시간 오디오-비디오 상담 및 분석 에이전트
- 수백 페이지 분량의 복잡한 도표가 포함된 금융/기술 문서 분석
- 화면 정보를 실시간으로 이해하고 조작하는 에이전틱 컴퓨터 사용(Agentic Computer Use)
- 저지연 응답이 필요한 멀티모달 대화형 AI 서비스
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.