Mistral, 119B 파라미터의 Mixture-of-Experts 모델 'Small 4' 출시

섹션별 상세

Mistral Small 4는 119B 파라미터 규모의 Mixture-of-Experts(MoE) 아키텍처를 채택했으며, 실제 추론 시에는 토큰당 8B개의 파라미터만 활성화하여 연산 효율을 극대화했다.

기존에 분리되어 있던 추론 특화 모델(Magistral), 비전 모델(Pixtral), 코딩 특화 모델(Devstral)의 기능을 단일 모델로 통합하여 멀티모달 및 복합 작업 수행 능력을 강화했다.

256k 토큰의 대규모 컨텍스트 윈도우를 지원하며, 이전 세대인 Small 3와 비교했을 때 데이터 처리량(Throughput)이 3배 향상되어 대규모 트래픽 처리에 적합하다.

LiveCodeBench 벤치마크에서 GPT-OSS 120B 모델보다 우수한 성능을 기록했으며, 동일 성능 대비 출력 토큰 수를 20% 줄여 토큰당 비용 효율성을 높였다.

Apache 2.0 라이선스를 적용한 오픈 웨이트(Open Weights) 방식으로 배포되어, 폐쇄형 모델인 OpenAI의 GPT-5.4 nano 등과 차별화된 개발자 생태계 경쟁력을 확보했다.

전문가 혼합 모델(Mixture-of-Experts (MoE)): — 전체 파라미터 중 일부 전문가 네트워크만 선택적으로 활성화하여 추론하는 아키텍처이다. 모델의 용량은 키우면서도 실제 연산량과 비용은 낮게 유지할 수 있어 대규모 모델의 효율적 운영에 필수적이다.
활성 파라미터(Active Parameters): — 전체 모델 파라미터 중 특정 토큰을 처리할 때 실제로 계산에 참여하는 파라미터의 수이다. Mistral Small 4의 경우 119B 중 8B만 활성화되어 추론 속도가 빠르고 자원 소모가 적다.
컨텍스트 윈도우(Context Window): — 모델이 한 번에 처리하고 기억할 수 있는 텍스트의 최대 범위이다. 256k는 약 수백 페이지 분량의 문서를 한 번에 입력할 수 있음을 의미하며, 긴 문서 분석이나 복잡한 대화 유지에 유리하다.
아파치 2.0 라이선스(Apache 2.0): — 누구나 자유롭게 소프트웨어를 사용, 수정, 배포할 수 있도록 허용하는 오픈 소스 라이선스이다. 상업적 이용이 자유롭고 특허권 관련 보호 조항이 포함되어 있어 기업용 솔루션 개발에 선호된다.

LiveCodeBench 벤치마크에서 GPT-OSS 120B 모델보다 우수한 성능을 기록했으며, 동일 성능 대비 출력 토큰 수를 20% 줄여 토큰당 비용 효율성을 높였다.

전문가 혼합 모델(Mixture-of-Experts (MoE)): — 전체 파라미터 중 일부 전문가 네트워크만 선택적으로 활성화하여 추론하는 아키텍처이다. 모델의 용량은 키우면서도 실제 연산량과 비용은 낮게 유지할 수 있어 대규모 모델의 효율적 운영에 필수적이다.
활성 파라미터(Active Parameters): — 전체 모델 파라미터 중 특정 토큰을 처리할 때 실제로 계산에 참여하는 파라미터의 수이다. Mistral Small 4의 경우 119B 중 8B만 활성화되어 추론 속도가 빠르고 자원 소모가 적다.
컨텍스트 윈도우(Context Window): — 모델이 한 번에 처리하고 기억할 수 있는 텍스트의 최대 범위이다. 256k는 약 수백 페이지 분량의 문서를 한 번에 입력할 수 있음을 의미하며, 긴 문서 분석이나 복잡한 대화 유지에 유리하다.
아파치 2.0 라이선스(Apache 2.0): — 누구나 자유롭게 소프트웨어를 사용, 수정, 배포할 수 있도록 허용하는 오픈 소스 라이선스이다. 상업적 이용이 자유롭고 특허권 관련 보호 조항이 포함되어 있어 기업용 솔루션 개발에 선호된다.