현재 Hugging Face에서 가장 뛰어난 소형 언어 모델들

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

7B 파라미터 미만의 소형 언어 모델이 고품질 학습 데이터와 증류 기법, 아키텍처 혁신을 통해 이전 대형 모델 수준의 성능을 달성하며 로컬 배포의 새로운 기준을 제시한다. 이 모델들은 소비자용 GPU나 노트북 환경에서도 구동 가능하여 클라우드 비용과 API 제한 없이 실무 작업 수행이 가능하다. 특히 추론, 코딩, 수학 벤치마크에서 30B급 모델에 필적하는 성과를 보이며, 특정 도메인이나 엣지 컴퓨팅 환경에서 효율적인 대안으로 자리 잡았다.

배경

Python 프로그래밍 기초, Hugging Face Transformers 라이브러리 사용 경험, 양자화 및 GGUF 형식에 대한 기본 이해

대상 독자

로컬 환경에서 LLM을 배포하거나 비용 효율적인 AI 애플리케이션을 구축하려는 개발자

의미 / 영향

소형 모델의 성능 향상은 기업이 클라우드 API 의존도를 낮추고 데이터 프라이버시를 강화하며 비용을 획기적으로 절감할 수 있는 환경을 조성한다. 이제 복잡한 추론 작업도 일반 소비자용 하드웨어에서 수행 가능해짐에 따라 엣지 AI와 온디바이스 AI 시장이 가속화될 전망이다.

섹션별 상세

Qwen3.5-4B는 262K 토큰의 긴 컨텍스트 윈도우와 사고 과정을 생성하는 thinking mode를 지원하여 긴 문서 처리와 범용 작업에 최적화된 성능을 제공한다.

Microsoft의 Phi-4-mini-instruct는 고품질 합성 데이터를 활용하여 3.8B 파라미터 규모로 ARC-C 벤치마크에서 83.7%의 점수를 기록하며 동급 모델을 상회하는 추론 능력을 입증했다.

근거

Phi-4-mini-instruct는 3.8B 파라미터로 ARC-C 벤치마크에서 83.7%를 기록했다. — Microsoft Phi-4-mini-instruct (3.8B) 섹션

Gemma 3 4B IT는 멀티모달 입력과 128K 컨텍스트 윈도우를 지원하며, HumanEval 71.3%의 점수로 코드 생성 및 수학 문제 해결에서 파라미터 대비 강력한 성능을 나타낸다.

근거

Gemma 3 4B IT는 HumanEval에서 71.3%를 기록했다. — Google Gemma 3 4B IT 섹션

Gemma 3n E4B는 MatFormer 아키텍처를 통해 8B 용량의 모델을 3GB 메모리 환경에서 구동 가능하게 설계하여 모바일 및 엣지 디바이스 배포에 최적화된 효율성을 갖췄다.

Llama 3.2 3B Instruct는 방대한 커뮤니티 생태계를 바탕으로 에이전트 워크플로 및 도구 호출(tool calling) 파이프라인에서 가장 널리 활용되는 소형 모델로 자리 잡았다.

SmolLM3-3B는 학습 데이터와 구성 설정을 투명하게 공개하여 연구 및 재현 가능한 실험에 적합하며, 3단계 커리큘럼 학습을 통해 지식 및 추론 벤치마크에서 상위권 성능을 기록했다.

DeepSeek-R1-Distill-Qwen-1.5B는 대형 추론 모델의 지식을 증류하여 1.5B의 초소형 크기에서도 복잡한 수학 및 논리 문제에 대한 단계별 추론 능력을 구현했다.

이미지 분석

Infographic
다양한 파라미터 크기(500M, 1B, 1.3B, 3B, 7B)를 가진 소형 모델들이 Hugging Face 생태계 내에서 핵심적인 위치를 차지하고 있음을 보여준다. 이는 기사에서 다루는 소형 모델의 다양성과 접근성을 강조하는 시각적 보조 자료이다.
Hugging Face에서 제공되는 주요 소형 언어 모델들의 파라미터 규모를 시각화한 이미지.

근거 모음

근거

Q4_K_M 양자화는 원본 모델 품질의 90~95%를 유지하면서 메모리 사용량을 약 75% 절감한다. — Why Small Language Models Are Worth Your Attention Right Now 섹션