LLM 아키텍처 갤러리: 주요 대형 언어 모델의 구조 및 사양 비교

핵심 요약

이 아티클은 Sebastian Raschka가 정리한 주요 대형 언어 모델(LLM)의 아키텍처 갤러리로, Llama 3/4, DeepSeek V3/R1, Qwen3 등 최신 모델들의 내부 구조를 시각화하여 제공한다. 각 모델의 파라미터 규모, 디코더 타입(Dense vs MoE), 어텐션 메커니즘(GQA, MLA 등), 정규화 기법 등을 상세히 비교한다. 특히 최근 트렌드인 Mixture of Experts(MoE)와 Multi-head Latent Attention(MLA)의 도입 양상을 구체적인 수치와 함께 보여준다. 개발자와 연구자들이 모델 간의 기술적 차이를 직관적으로 파악할 수 있도록 돕는 종합 가이드 역할을 한다.

배경

Transformer 아키텍처 기본 지식, Attention 메커니즘(MHA, GQA) 이해, Deep Learning 정규화 기법 지식

대상 독자

LLM 아키텍처 설계자 및 모델 배포 최적화 엔지니어

의미 / 영향

이 갤러리는 LLM 설계가 단순 스케일업에서 벗어나 MoE, MLA, 하이브리드 구조 등 효율성 중심으로 급격히 진화하고 있음을 보여준다. 특히 오픈 웨이트 모델들이 독자적인 최적화 기법을 도입하며 상용 모델과의 기술적 격차를 빠르게 좁히고 있다.

섹션별 상세

Llama 3 8B는 GQA와 RoPE를 사용하는 표준적인 Pre-norm Dense 구조를 가지며, OLMo 2 7B는 MHA와 QK-Norm을 사용하고 Residual 블록 내부에서 Post-norm을 적용하여 학습 안정성을 확보했다.

Llama 3 8B 모델의 상세 아키텍처 다이어그램 — Diagram표준적인 Dense Transformer 블록 구조를 보여준다. GQA(Grouped-Query Attention)와 RMSNorm의 배치 순서, 그리고 Feed-Forward 모듈의 내부 구성을 시각적으로 확인할 수 있다.

DeepSeek V3 및 R1은 총 671B 파라미터 중 추론 시 37B만 활성화하는 MoE 구조를 채택했으며, MLA를 도입하여 KV 캐시 효율성을 극대화하고 공유 전문가를 통해 추론 성능을 최적화했다.

DeepSeek V3/R1의 MoE 및 MLA 구조 다이어그램 — DiagramMLA(Multi-head Latent Attention)와 MoE 레이어의 상세 구조를 설명한다. 특히 256개의 전문가 중 8개만 활성화되는 방식과 공유 전문가의 역할을 시각화하여 대규모 모델의 효율성 전략을 보여준다.

Gemma 3 27B는 슬라이딩 윈도우 어텐션(SWA)을 적극 활용하고 256k의 대규모 어휘집을 갖춘 반면, Mistral 3.1 24B는 지연 시간 최적화를 위해 SWA를 제거하고 표준 GQA를 채택하여 설계 철학의 차이를 보여준다.

Llama 4 Maverick(400B)은 DeepSeek의 MoE 전략을 따르면서도 더 적고 큰 전문가를 사용하며, Dense 블록과 MoE 블록을 교차 배치하여 성능과 효율성의 균형을 맞춘 구조를 가졌다.

Llama 4 Maverick 400B의 MoE 아키텍처 다이어그램 — DiagramDense 블록과 MoE 블록이 교차로 배치되는 구조를 보여준다. 128개의 전문가 중 1개의 공유 전문가와 1개의 선택 전문가만 활성화하여 400B 규모임에도 17B의 활성 파라미터만 사용하는 효율성을 강조한다.

Qwen3 시리즈는 Dense와 MoE 변체를 모두 제공하며, 최신 Qwen3.5에서는 Gated DeltaNet과 Gated Attention을 결합한 하이브리드 구조로 진화하여 긴 컨텍스트 처리 효율을 높였다.

NVIDIA의 Nemotron 3 Nano 및 Super는 Mamba-2 블록과 GQA 레이어를 인터리빙한 하이브리드 MoE 구조를 사용하여 상태 공간 모델(SSM)과 Transformer의 장점을 결합했다.

실무 Takeaway

최신 대형 모델들은 추론 비용 절감을 위해 MoE 구조와 MLA를 결합하여 활성 파라미터 수와 KV 캐시 크기를 획기적으로 줄이고 있다.
모델의 안정적인 학습을 위해 QK-Norm이나 Post-norm과 같은 정규화 기법의 변형이 최신 오픈 모델들에서 보편화되는 추세이다.
단순 Transformer 구조를 넘어 Mamba-2나 DeltaNet 같은 선형 어텐션 기법을 결합한 하이브리드 아키텍처가 긴 컨텍스트 효율성을 위한 핵심 대안으로 부상하고 있다.

언급된 리소스

문서The Big LLM Architecture Comparison

문서A Dream of Spring for Open-Weight LLMs

핵심 요약

배경

Transformer 아키텍처 기본 지식, Attention 메커니즘(MHA, GQA) 이해, Deep Learning 정규화 기법 지식

대상 독자

LLM 아키텍처 설계자 및 모델 배포 최적화 엔지니어

의미 / 영향

섹션별 상세

실무 Takeaway

최신 대형 모델들은 추론 비용 절감을 위해 MoE 구조와 MLA를 결합하여 활성 파라미터 수와 KV 캐시 크기를 획기적으로 줄이고 있다.
모델의 안정적인 학습을 위해 QK-Norm이나 Post-norm과 같은 정규화 기법의 변형이 최신 오픈 모델들에서 보편화되는 추세이다.
단순 Transformer 구조를 넘어 Mamba-2나 DeltaNet 같은 선형 어텐션 기법을 결합한 하이브리드 아키텍처가 긴 컨텍스트 효율성을 위한 핵심 대안으로 부상하고 있다.

언급된 리소스

문서The Big LLM Architecture Comparison

문서A Dream of Spring for Open-Weight LLMs

LLM 아키텍처 갤러리: 주요 대형 언어 모델의 구조 및 사양 비교

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

LLM 아키텍처 갤러리: 주요 대형 언어 모델의 구조 및 사양 비교

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글