DeepSeek V3.2 기술 분석: 희소 어텐션과 자가 검증을 통한 추론 모델의 진화

핵심 요약

DeepSeek V3.2는 이전 모델들의 강점을 결합하고 새로운 효율화 기술을 도입한 최신 플래그십 모델이다. 기존의 MLA(Multi-Head Latent Attention)에 DSA(DeepSeek Sparse Attention)를 추가하여 긴 컨텍스트에서의 추론 비용을 획기적으로 줄였다. 또한 DeepSeekMath V2에서 검증된 자가 검증(Self-Verification) 및 자가 정제(Self-Refinement) 기법을 적용하여 수학 및 논리 추론 능력을 골드 레벨로 끌어올렸다. GRPO 알고리즘의 안정성 개선과 하이브리드 강화학습 파이프라인을 통해 범용 성능과 전문 추론 능력을 동시에 확보했다.

배경

Transformer Architecture, Reinforcement Learning (PPO/GRPO), Attention Mechanisms (MLA, Sparse Attention), Mixture of Experts (MoE)

대상 독자

LLM 아키텍처 설계자 및 고성능 추론 시스템 개발자

의미 / 영향

DeepSeek V3.2는 오픈 웨이트 모델도 적절한 아키텍처 혁신과 강화학습 전략을 통해 폐쇄형 플래그십 모델과 대등한 성능을 낼 수 있음을 증명했다. 특히 효율적인 어텐션 기법과 인퍼런스 스케일링 전략은 향후 고성능 LLM 개발의 주요 표준이 될 것으로 전망된다.

섹션별 상세

DeepSeek V3.2의 아키텍처는 기존 V3의 MoE와 MLA 구조를 계승하면서도 DSA(DeepSeek Sparse Attention)를 새롭게 통합했다. DSA는 라이트닝 인덱서와 토큰 셀렉터를 사용하여 쿼리 토큰이 모든 과거 토큰이 아닌 가장 관련성 높은 일부 토큰에만 주의를 기울이게 함으로써 계산 복잡도를 선형 수준으로 낮춘다. 이는 특히 긴 문맥을 처리해야 하는 RAG나 에이전트 작업에서 추론 효율성을 극대화하는 핵심 요소이다.

강화학습 측면에서는 DeepSeek R1의 RLVR(Reinforcement Learning with Verifiable Rewards)을 확장하여 하이브리드 방식을 채택했다. 수학이나 코드처럼 정답 확인이 가능한 영역은 규칙 기반 보상을 사용하고, 일반적인 작업에는 LLM-as-a-judge 방식의 보상 모델을 활용하여 범용성을 높였다. 이를 통해 모델은 정답뿐만 아니라 올바른 추론 과정을 학습하며 언어 일관성과 답변 길이 최적화까지 달성했다.

수학적 추론 성능 향상을 위해 DeepSeekMath V2의 자가 검증 및 자가 정제 메커니즘을 도입했다. 모델이 생성한 증명을 별도의 검증기 모델(Verifier)이 평가하고, 이 피드백을 바탕으로 모델이 스스로 답변을 수정하는 과정을 반복하여 최종 답변의 정확도를 높인다. 이 과정은 학습 시에는 별도의 메타 검증기를 통해 강화되지만, 추론 시에는 단일 모델 내에서 효율적으로 실행되도록 설계되었다.

GRPO(Group Relative Policy Optimization) 알고리즘에 여러 안정성 업데이트가 적용되었다. 도메인별 KL 발산 가중치 조절, 편향되지 않은 KL 추정치 사용, 오프-폴리시 시퀀스 마스킹 등을 통해 학습 안정성을 높이고 모델이 잘못된 긴 답변에 편향되는 문제를 해결했다. 특히 수학 도메인에서는 KL 페널티를 매우 낮게 설정하는 것이 성능 향상에 효과적임이 확인되었다.

DeepSeek V3.2-Speciale라는 확장 추론(Extended Thinking) 변체는 추론 데이터로만 집중 학습되어 더 긴 사고 과정을 거친다. 이는 추론 시 토큰 생성량을 늘려 비용은 증가하지만, 복잡한 논리 문제에서 훨씬 높은 정확도를 달성하는 인퍼런스 스케일링(Inference Scaling)의 전형적인 사례를 보여준다. 벤치마크 결과 이 모델은 최신 상용 모델인 GPT-5나 Gemini 3.0 Pro와 대등한 수준의 성능을 기록했다.

이미지 분석

Chart
DeepSeek V3.2가 AIME 2025, Codeforces 등 주요 추론 벤치마크에서 GPT-5-High 및 Gemini-3.0-Pro와 대등하거나 능가하는 성능을 보임을 나타낸다.
DeepSeek V3.2와 주요 상용 모델 간의 벤치마크 비교 차트

Diagram
KV 캐시 메모리를 절약하기 위해 키와 값 벡터를 잠재 공간으로 압축하고 추론 시 다시 투영하는 메커니즘을 시각화한다.
Multi-Head Latent Attention(MLA)의 구조 다이어그램

Diagram
DSA가 모든 과거 토큰이 아닌 선택된 특정 토큰들에만 주의를 기울여 연산량을 줄이는 방식을 보여준다.
DeepSeek Sparse Attention(DSA)과 일반 어텐션의 마스크 비교

Diagram
라이트닝 인덱서와 토큰 셀렉터가 결합되어 최종적으로 희소 어텐션 마스크를 생성하는 전체 과정을 요약한다.
DeepSeek V3.2의 희소 어텐션 메커니즘 요약 플로우차트

실무 Takeaway

DSA 도입으로 긴 컨텍스트 처리 시 메모리 및 계산 효율성이 크게 개선되어 대규모 프로덕션 환경에서의 운영 비용 절감이 가능하다.
자가 검증 및 자가 정제 루프를 통해 외부 정답지 없이도 복잡한 논리적 오류를 스스로 수정하는 고도화된 추론 시스템 구축이 가능하다.
GRPO의 세부 튜닝(KL 가중치, 마스킹 등)은 대규모 강화학습 시 발생할 수 있는 불안정성을 해결하고 모델의 정렬 품질을 높이는 핵심 실무 기법이다.

언급된 리소스

문서DeepSeek V3.2 Technical Report

논문DeepSeekMath V2 Paper