핵심 요약
이 아티클은 Sebastian Raschka가 정리한 주요 대형 언어 모델(LLM)의 아키텍처 갤러리로, Llama 3/4, DeepSeek V3/R1, Qwen3 등 최신 모델들의 내부 구조를 시각화하여 제공한다. 각 모델의 파라미터 규모, 디코더 타입(Dense vs MoE), 어텐션 메커니즘(GQA, MLA 등), 정규화 기법 등을 상세히 비교한다. 특히 최근 트렌드인 Mixture of Experts(MoE)와 Multi-head Latent Attention(MLA)의 도입 양상을 구체적인 수치와 함께 보여준다. 개발자와 연구자들이 모델 간의 기술적 차이를 직관적으로 파악할 수 있도록 돕는 종합 가이드 역할을 한다.
배경
Transformer 아키텍처 기본 지식, Attention 메커니즘(MHA, GQA) 이해, Deep Learning 정규화 기법 지식
대상 독자
LLM 아키텍처 설계자 및 모델 배포 최적화 엔지니어
의미 / 영향
이 갤러리는 LLM 설계가 단순 스케일업에서 벗어나 MoE, MLA, 하이브리드 구조 등 효율성 중심으로 급격히 진화하고 있음을 보여준다. 특히 오픈 웨이트 모델들이 독자적인 최적화 기법을 도입하며 상용 모델과의 기술적 격차를 빠르게 좁히고 있다.
섹션별 상세
Llama 3 8B는 GQA와 RoPE를 사용하는 표준적인 Pre-norm Dense 구조를 가지며, OLMo 2 7B는 MHA와 QK-Norm을 사용하고 Residual 블록 내부에서 Post-norm을 적용하여 학습 안정성을 확보했다.

DeepSeek V3 및 R1은 총 671B 파라미터 중 추론 시 37B만 활성화하는 MoE 구조를 채택했으며, MLA를 도입하여 KV 캐시 효율성을 극대화하고 공유 전문가를 통해 추론 성능을 최적화했다.

Gemma 3 27B는 슬라이딩 윈도우 어텐션(SWA)을 적극 활용하고 256k의 대규모 어휘집을 갖춘 반면, Mistral 3.1 24B는 지연 시간 최적화를 위해 SWA를 제거하고 표준 GQA를 채택하여 설계 철학의 차이를 보여준다.
Llama 4 Maverick(400B)은 DeepSeek의 MoE 전략을 따르면서도 더 적고 큰 전문가를 사용하며, Dense 블록과 MoE 블록을 교차 배치하여 성능과 효율성의 균형을 맞춘 구조를 가졌다.

Qwen3 시리즈는 Dense와 MoE 변체를 모두 제공하며, 최신 Qwen3.5에서는 Gated DeltaNet과 Gated Attention을 결합한 하이브리드 구조로 진화하여 긴 컨텍스트 처리 효율을 높였다.
NVIDIA의 Nemotron 3 Nano 및 Super는 Mamba-2 블록과 GQA 레이어를 인터리빙한 하이브리드 MoE 구조를 사용하여 상태 공간 모델(SSM)과 Transformer의 장점을 결합했다.
실무 Takeaway
- 최신 대형 모델들은 추론 비용 절감을 위해 MoE 구조와 MLA를 결합하여 활성 파라미터 수와 KV 캐시 크기를 획기적으로 줄이고 있다.
- 모델의 안정적인 학습을 위해 QK-Norm이나 Post-norm과 같은 정규화 기법의 변형이 최신 오픈 모델들에서 보편화되는 추세이다.
- 단순 Transformer 구조를 넘어 Mamba-2나 DeltaNet 같은 선형 어텐션 기법을 결합한 하이브리드 아키텍처가 긴 컨텍스트 효율성을 위한 핵심 대안으로 부상하고 있다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료