최신 오픈 AI 유물 (#20): 새로운 조직과 모델 유형의 등장 (Nemotron Super, Sarvam, Cohere Transcribe 등)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

이번 호는 Qwen이나 DeepSeek 같은 대형 범용 모델 위주에서 벗어나 OCR, RAG, 오디오 전사 등 특정 용도에 특화된 다양한 오픈 모델들을 다룬다. NVIDIA는 1M 컨텍스트와 NVFP4 정밀도를 지원하는 120B 규모의 Nemotron-3-Super를 공개하며 기술적 우위를 보여주었다. Cohere는 Apache 2.0 라이선스로 14개 언어를 지원하는 강력한 음성 인식 모델을 출시했고, 인도 스타트업 Sarvam은 힌디어 등 인도 현지 언어에 최적화된 대규모 모델을 선보였다. 이러한 흐름은 범용 모델을 보완하는 도메인 특화 모델의 중요성이 커지고 있음을 시사하며 오픈 소스 생태계의 다양성이 확장되고 있음을 증명한다.

배경

MoE(Mixture of Experts) 아키텍처에 대한 기본 이해, RAG 및 에이전트 기반 검색 시스템 개념, 모델 정밀도(FP4, BF16 등)와 추론 효율성의 관계

대상 독자

도메인 특화 AI 서비스를 구축하려는 개발자 및 오픈 소스 모델 동향을 파악하려는 연구자

의미 / 영향

이번 릴리스들은 범용 LLM의 시대를 넘어 특정 용도에 최적화된 '도구형 모델'의 확산을 보여줍니다. 특히 NVIDIA의 NVFP4 도입과 Cohere의 라이선스 개방은 오픈 소스 생태계의 기술적 수준과 상업적 활용 가능성을 동시에 높이는 계기가 될 것입니다.

섹션별 상세

NVIDIA는 LatentMoE 아키텍처와 NVFP4 정밀도를 적용한 Nemotron-3-Super-120B 모델을 출시했다. 이 모델은 120B 전체 파라미터 중 12B만 활성화하며 1M 토큰의 긴 컨텍스트 윈도우를 지원한다. 기술 보고서와 함께 학습 데이터셋의 상당 부분을 공개하여 오픈 소스 커뮤니티의 투명성을 높였다. 이는 대규모 모델에서도 효율적인 추론과 긴 문맥 처리가 가능함을 입증한다.

Cohere는 기존의 상업적 제한이 있는 라이선스에서 벗어나 Apache 2.0 라이선스로 음성 인식 모델인 cohere-transcribe를 공개했다. Conformer 아키텍처를 기반으로 하며 한국어를 포함한 14개 언어에서 기존 오픈 및 폐쇄형 모델보다 우수한 성능을 기록했다. 고성능 음성 인식 기술의 민주화에 기여하며 기업들이 자유롭게 전사 서비스를 구축할 수 있는 기반을 마련했다.

인도 스타트업 Sarvam AI는 12-16T 토큰으로 학습된 105B 규모의 플래그십 모델을 발표하며 주권 AI(Sovereign AI)의 중요성을 강조했다. 이 모델은 인도 현지 언어 성능에서 글로벌 SOTA 모델들을 능가하는 선호도를 보였다. 특정 지역의 언어와 문화적 맥락에 특화된 모델이 범용 모델보다 효율적일 수 있음을 보여주며 국가별 특화 모델의 필요성을 시사한다.

Sarvam AI 모델의 인도 언어 성능 비교 차트 — ChartSarvam 모델이 다른 글로벌 오픈 모델들과 비교하여 인도 현지 언어(Indic languages)에서 얼마나 더 높은 선호도를 보이는지 수치로 보여줍니다. 주권 AI의 실제적인 성능 우위를 입증하는 근거 자료로 활용됩니다.

Chroma는 에이전트 기반 검색(Agentic Search)에 최적화된 context-1 모델을 출시하며 오픈 모델 시장에 처음으로 진입했다. GPT-OSS를 기반으로 파인튜닝되었으며 Thinking Machine의 Tinker를 활용해 학습 과정에 대한 상세한 기술 보고서를 함께 제공했다. 벡터 DB 기업이 직접 모델 최적화에 참여함으로써 RAG 시스템의 효율성을 극대화하고 검색 에이전트의 성능을 높이는 새로운 표준을 제시했다.

Chroma context-1 모델의 자가 수정 검색 에이전트 학습 플로우 다이어그램 — DiagramChroma가 개발한 context-1 모델이 검색 에이전트로서 어떻게 학습되고 동작하는지 아키텍처를 설명합니다. RAG 시스템에서 모델이 검색 결과를 스스로 평가하고 수정하는 과정을 도식화하여 보여줍니다.

Mistral AI는 추론과 코딩 능력을 결합한 119B 규모의 하이브리드 모델인 Mistral-Small-4를 공개했다. 이전 세대 모델들의 장점을 통합하여 효율적인 연산과 높은 지능을 동시에 구현하는 것을 목표로 한다. 특히 Lean4 수학 정리 증명에 특화된 Leanstral 버전도 함께 출시되어 전문 연구 영역에서의 활용도를 높였다. 이는 복잡한 논리적 사고가 필요한 작업에 최적화된 모델 라인업을 강화한 결과이다.

Mistral Small 4 모델의 벤치마크 결과 테이블 — ChartMistral Small 4 모델이 코딩, 추론, 수학 등 주요 벤치마크에서 이전 세대 및 경쟁 모델 대비 어떤 성능을 기록했는지 상세 수치를 제공합니다. 하이브리드 모델로서의 효율성을 시각적으로 확인할 수 있습니다.

실무 Takeaway

NVIDIA의 NVFP4와 같은 새로운 수치 정밀도 기술을 활용하면 모델의 추론 효율성을 높이면서도 높은 성능을 유지할 수 있어 하드웨어 자원을 최적화할 수 있다.
특정 언어나 도메인(OCR, RAG, 음성)에 특화된 소형/중형 모델들이 범용 대형 모델보다 비용 대비 효율적인 성능을 제공하므로 서비스 설계 시 도메인 특화 모델을 우선 고려해야 한다.
Cohere의 Apache 2.0 전환 사례처럼 오픈 소스 라이선스 정책 변화를 주시하여 상업적 이용이 가능한 고성능 모델을 적극적으로 도입함으로써 운영 비용을 절감할 수 있다.

언급된 리소스

문서NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

문서cohere-transcribe-03-2026

문서context-1 by Chroma