DeepSeek V3에서 V3.2까지: 아키텍처, 희소 어텐션 및 강화학습 업데이트 분석

핵심 요약

DeepSeek V3.2는 이전 모델의 강점을 계승하면서도 효율성과 성능을 극대화한 최신 오픈 가중치 모델이다. 핵심은 MLA와 결합된 새로운 희소 어텐션(DSA) 메커니즘을 통해 긴 컨텍스트 처리 효율을 높이고, DeepSeekMath V2에서 검증된 자가 검증 및 정제 기법을 도입하여 추론 능력을 강화한 것이다. 또한 GRPO 알고리즘의 안정성을 개선하여 수학 및 에이전트 작업에서 독보적인 성능을 보여준다. 이 글은 V3부터 V3.2까지의 기술적 변천사를 아키텍처와 학습 파이프라인 관점에서 심도 있게 다룬다.

배경

Transformer Architecture, Reinforcement Learning (PPO/GRPO), Mixture of Experts (MoE), Attention Mechanisms (MLA, Sparse Attention)

대상 독자

LLM 아키텍처 설계자, 강화학습 연구원 및 AI 프로덕션 개발자

의미 / 영향

DeepSeek V3.2는 효율적인 아키텍처와 정교한 강화학습만으로 오픈소스 모델이 폐쇄형 플래그십 모델과 대등하게 경쟁할 수 있음을 증명했다. 특히 DSA와 RLVR의 진화는 향후 추론 특화 모델 개발의 표준이 될 가능성이 높으며, 추론 시간 스케일링의 실질적인 구현 방법을 제시했다.

섹션별 상세

DeepSeek V3.2는 V3의 MLA(Multi-Head Latent Attention) 아키텍처를 기반으로 DSA(DeepSeek Sparse Attention)를 추가하여 추론 효율성을 극대화했다. DSA는 라이트닝 인덱서와 토큰 선택기를 통해 모든 과거 토큰이 아닌 학습된 중요 토큰에만 선택적으로 어텐션을 수행하며, 이를 통해 긴 컨텍스트 시나리오에서 계산 복잡도를 획기적으로 낮췄다. 이는 기존의 슬라이딩 윈도우 방식보다 유연하게 문맥을 파악하면서도 연산 비용을 절감하는 효과를 가져왔다.

강화학습 측면에서는 DeepSeek R1의 RLVR(Reinforcement Learning with Verifiable Rewards)을 확장하여 수학 및 에이전트 작업에 최적화했다. 특히 DeepSeekMath V2에서 도입된 'LLM 기반 검증기'와 '메타 검증기' 구조를 활용해 정답 유무뿐만 아니라 중간 추론 과정의 논리적 엄밀함까지 보상 시스템에 반영했다. 이러한 프로세스 보상 모델링은 모델이 단순히 정답을 맞히는 것을 넘어 올바른 사고 과정을 학습하도록 유도했다.

추론 단계의 성능 향상을 위해 자가 정제(Self-Refinement) 기법을 적극 도입했다. 모델이 생성한 초기 답변을 스스로 검토하고 수정하는 과정을 최대 8회까지 반복함으로써 추론 정확도를 높였으며, 이는 별도의 검증 모델 없이도 학습 과정에서 습득한 검증 능력을 활용하는 방식으로 구현되었다. 실험 결과 반복 횟수가 늘어날수록 정확도가 포화되지 않고 지속적으로 향상되는 추세가 확인되었다.

GRPO(Group Relative Policy Optimization) 알고리즘의 안정성을 높이기 위한 여러 기술적 업데이트가 적용되었다. 도메인별 KL 발산 가중치 조절, 편향되지 않은 KL 추정치 계산, 오프-폴리시 시퀀스 마스킹 등을 통해 수학과 같은 특정 도메인에서 학습 효율과 안정성을 동시에 확보했다. 이는 기존 GRPO가 가졌던 길이 편향이나 난이도 편향 문제를 해결하기 위한 실무적인 최적화 조치들이다.

DeepSeek V3.2-Speciale라는 확장 추론(Extended Thinking) 변체를 통해 추론 시간 스케일링의 효과를 입증했다. 이 모델은 추론 데이터로만 강화학습을 진행하고 답변 길이에 대한 페널티를 줄여, 더 긴 사고 과정을 거침으로써 복잡한 문제 해결 능력을 극대화한 것이 특징이다. 이는 모델이 더 많은 토큰을 생성하며 스스로 논리를 점검할수록 성능이 향상된다는 추론 스케일링 법칙을 실전 모델에 적용한 사례이다.

이미지 분석

Chart
DeepSeek V3.2가 AIME 2025, HMMT 2025 등 수학 및 추론 벤치마크에서 GPT-5-High 및 Gemini 3.0 Pro와 대등하거나 우수한 성능을 보임을 나타낸다. 특히 추론 능력과 에이전트 능력 두 가지 측면에서 모델의 경쟁력을 시각화했다.
DeepSeek V3.2와 주요 상용 모델 간의 벤치마크 성능 비교 차트

Diagram
671B 파라미터 중 37B만 활성화되는 MoE 구조와 128k 컨텍스트 길이를 지원하는 아키텍처 세부 사항을 보여준다. V3.2의 기반이 되는 핵심 구조적 특징을 설명한다.
DeepSeek V3/R1의 Mixture-of-Experts(MoE) 기반 아키텍처 다이어그램

Diagram
Key와 Value를 저차원 공간으로 압축하여 KV 캐시 메모리 사용량을 줄이는 MLA의 작동 원리를 일반적인 MHA와 비교하여 보여준다. 이는 DeepSeek 모델들의 높은 추론 효율성을 뒷받침하는 핵심 기술이다.
DeepSeek V3/R1의 Multi-Head Latent Attention(MLA) 메커니즘 상세도

Diagram
현재 토큰이 모든 이전 토큰이 아닌, 학습된 인덱서에 의해 선택된 특정 토큰들에만 어텐션을 수행하는 DSA의 희소성을 보여준다. 이를 통해 연산 복잡도를 O(L^2)에서 O(L*k)로 낮추는 원리를 설명한다.
DeepSeek Sparse Attention(DSA)의 어텐션 마스크 시각화

실무 Takeaway

MLA와 DSA의 결합은 대규모 모델에서 KV 캐시 메모리 절약과 연산 효율성이라는 두 마리 토끼를 잡는 핵심 아키텍처 설계 패턴이다.
단순한 정답 기반 보상을 넘어 LLM 검증기를 통한 프로세스 보상(Process Reward)과 자가 정제 루프는 고도화된 추론 모델 구축의 필수 요소이다.
GRPO의 안정화 기법(KL 가중치 튜닝, 오프-폴리시 마스킹 등)은 대규모 강화학습 시 발생할 수 있는 성능 저하와 불안정성을 해결하는 실무적 지침을 제공한다.

언급된 리소스

문서Build a Large Language Model (From Scratch)

문서Build a Reasoning Model (From Scratch)