DeepSeek V3에서 V3.2까지: 아키텍처, 희소 어텐션 및 강화학습 업데이트 분석

핵심 요약

DeepSeek V3.2는 이전 모델의 MLA(Multi-Head Latent Attention) 아키텍처를 계승하면서 DSA(DeepSeek Sparse Attention)를 도입해 추론 효율성을 극대화했다. 특히 DeepSeekMath V2에서 검증된 자가 검증(Self-Verification)과 자가 정제(Self-Refinement) 기법을 통합하여 수학 및 추론 성능을 비약적으로 향상시켰다. 학습 알고리즘인 GRPO의 안정성을 개선하고, 추론 스케일링을 위한 Speciale 모델을 통해 GPT-5 및 Gemini 3.0 Pro 수준의 성능을 목표로 한다. 최종적으로 mHC와 같은 새로운 잔차 연결 기법 연구를 통해 학습 안정성과 수렴 속도를 더욱 개선했다.

배경

Transformer 아키텍처, 강화학습(RLHF/PPO) 기초, 어텐션 메커니즘(MHA/GQA)

대상 독자

LLM 아키텍처 설계자 및 강화학습 기반 추론 모델 개발자

의미 / 영향

DeepSeek의 기술 공개는 고성능 추론 모델 개발에 필요한 아키텍처와 학습 방법론의 표준을 제시하며, 오픈 웨이트 모델의 경쟁력을 proprietary 모델 수준으로 끌어올리는 기폭제가 된다.

섹션별 상세

MLA는 KV 캐시를 저차원 잠재 공간으로 압축하여 메모리 요구 사항을 획기적으로 줄이며, DSA는 학습된 인덱서를 통해 관련성 높은 토큰만 선택적으로 참조하여 계산 복잡도를 선형 수준으로 낮춘다.

RLVR은 수학과 코드 등 정답 확인이 가능한 영역에서 보상을 제공하며, V3.2는 이를 확장하여 일반 작업에는 LLM 기반 보상 모델을, 에이전트 작업에는 길이 페널티를 적용하는 하이브리드 방식을 채택했다.

자가 검증 기법은 별도의 검증기 모델을 통해 생성된 증명의 논리적 엄밀함을 평가하며, 이를 통해 모델이 정답뿐만 아니라 올바른 추론 과정을 학습하도록 유도한다.

자가 정제는 추론 시 모델이 자신의 답안을 스스로 수정하는 과정으로, 반복 횟수가 늘어날수록 정확도가 향상되는 추론 스케일링 효과를 제공한다.

GRPO 알고리즘은 도메인별 KL 가중치 최적화와 오프-폴리시 데이터 필터링을 통해 학습 안정성을 높였으며, 이는 대규모 모델의 강화학습 효율성을 개선하는 핵심 요소이다.

mHC(Manifold-Constrained Hyper-Connections)는 잔차 연결을 학습 가능한 병렬 스트림으로 확장하고 이를 구조화된 매니폴드 상에 제약하여 학습 안정성과 수렴 속도를 개선하는 최신 연구 결과이다.

이미지 분석

Chart
DeepSeek V3.2가 AIME 2025, HMMT 2025 등 수학 및 추론 벤치마크에서 GPT-5-High 및 Gemini-3.0-Pro와 대등하거나 능가하는 성능을 보여준다.
DeepSeek V3.2와 주요 상용 모델 간의 벤치마크 비교 차트

Diagram
MLA와 DSA가 통합된 모델 구조를 보여주며, 671B 파라미터 중 37B만 활성화되는 MoE 구조와 128k 토큰 컨텍스트 지원을 명시한다.
DeepSeek V3.2의 전체 아키텍처 다이어그램

Diagram
일반적인 인과적 어텐션과 달리 DSA는 현재 토큰이 이전 토큰 중 선택된 일부에만 어텐션을 수행하여 계산 효율을 높이는 방식을 시각화한다.
DeepSeek Sparse Attention(DSA)의 작동 원리 비교

실무 Takeaway

MLA와 DSA의 결합은 긴 문맥 처리 시 발생하는 메모리 및 연산 병목 현상을 해결하는 실질적인 아키텍처 대안이다.
추론 성능 향상을 위해 단순한 모델 크기 확장보다 자가 검증 루프를 통한 데이터 품질 개선과 추론 시 반복 수정이 더 효과적이다.
강화학습 알고리즘인 GRPO의 세부적인 마스킹 및 정규화 기법은 모델의 편향을 방지하고 학습 수렴 속도를 높이는 데 필수적이다.

언급된 리소스

문서DeepSeek V3.2 Report

논문DeepSeekMath V2 Paper

문서Build a Large Language Model (From Scratch)