JetBrains, 12B 파라미터 MoE 모델 Mellum2 공개

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Mellum2는 12B 파라미터 규모의 Mixture-of-Experts(MoE) 모델로, 토큰당 2.5B 파라미터만 활성화하여 추론 효율을 극대화한다. 기존 코드 완성 모델에서 확장되어 텍스트와 소프트웨어 엔지니어링 작업 전반을 지원한다. 유사한 크기의 모델 대비 2배 이상의 추론 속도를 제공하며 Apache 2.0 라이선스로 배포된다. 라우팅, RAG, 서브 에이전트 등 지연 시간에 민감한 프로덕션 워크로드에 최적화된 성능을 보인다.

배경

LLM 추론 및 배포 경험, MoE 아키텍처에 대한 기본 이해, RAG 및 에이전트 워크플로 구축 경험

대상 독자

프로덕션 환경에서 LLM을 사용하는 개발자 및 엔지니어

의미 / 영향

이 모델은 대형 모델 중심의 시스템에서 중간 연산을 효율적으로 처리하는 'Focal' 모델의 중요성을 보여준다. 고성능 모델과 경량 모델을 조합하는 아키텍처가 비용과 속도 측면에서 프로덕션 최적화의 핵심이 될 것이다.

섹션별 상세

Mellum2는 MoE 아키텍처를 채택하여 총 12B 파라미터 중 토큰당 2.5B만 활성화한다. 이 구조는 모델의 전체 용량은 유지하면서 추론 시 연산량을 줄여 실시간 워크로드의 비용과 지연 시간을 낮춘다.

근거

Mellum2는 12B 파라미터 모델이지만 토큰당 2.5B 파라미터만 활성화한다. — Model architecture 섹션 표

이 모델은 코드 생성, 추론, 과학, 수학 벤치마크에서 동급 모델과 경쟁력 있는 성능을 기록했다. 특히 2배 이상 빠른 추론 속도를 통해 고처리량 프로덕션 환경에 적합한 효율성을 확보했다.

Mellum2의 다양한 벤치마크 성능을 비교한 결과 차트. — ChartLiveCodeBench, BFCL, AIME 등 여러 벤치마크에서 Mellum2가 다른 모델들과 비교하여 어떤 성능을 보이는지 시각화했다. 이를 통해 모델의 코드 생성 및 추론 능력이 동급 모델 대비 경쟁력이 있음을 보여준다.

근거

유사한 크기의 모델 대비 2배 이상 빠른 추론 속도를 제공한다. — 본문 도입부 및 Benchmark highlights 섹션

주요 활용 사례는 멀티 모델 시스템의 라우팅 및 오케스트레이션, RAG 파이프라인의 컨텍스트 처리, 에이전트의 서브 태스크 수행이다. 대형 모델을 호출하기 전 단계에서 효율적인 중간 연산을 처리하여 전체 시스템의 비용과 속도를 개선한다.

프라이빗 배포를 고려하여 설계되었으며, 내부 데이터나 보안이 중요한 환경에서 자체 호스팅이 가능하다. 텍스트와 코드 작업에 집중하여 범용 멀티모달 모델보다 가볍고 제어하기 쉬운 구조를 갖췄다.

용어 해설

MoE: — Mixture-of-Experts의 약자로, 모델의 전체 파라미터 중 특정 토큰 처리에 필요한 일부 전문가 네트워크만 활성화하는 아키텍처입니다. 전체 모델 용량은 크지만 추론 시 연산 비용을 획기적으로 줄여 효율성을 높입니다.
Latency: — 입력 데이터가 모델에 전달된 후 결과가 출력되기까지 걸리는 시간입니다. 실시간 AI 서비스나 고처리량 시스템에서는 이 지연 시간을 최소화하는 것이 핵심 성능 지표입니다.
RAG: — 외부 지식 베이스에서 관련 정보를 검색하여 모델의 프롬프트에 주입하는 기술입니다. 모델이 학습하지 않은 최신 정보나 내부 데이터를 기반으로 답변을 생성하게 하여 환각 현상을 줄입니다.

언급된 리소스

GitHubMellum2 Hugging Face Collection

논문Mellum2 Technical Report