이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
GLM-5는 DSA(DeepSeek Sparse Attention)를 도입하여 효율성을 극대화했으며, 다단계 강화학습과 온폴리시 지식 증류를 통해 치명적 망각 없이 에이전틱 능력을 확보했다. 또한 중국 내 하드웨어 인프라에 맞춘 커널 최적화와 추론 가속 기법을 통해 실전 배치 성능을 높였다.
배경
Hugging Face H4 팀이 Zhipu AI에서 발표한 차세대 모델 GLM-5의 기술 리포트를 상세히 검토하는 영상입니다.
대상 독자
LLM 아키텍처 연구자, AI 에이전트 개발자, 모델 최적화 엔지니어
의미 / 영향
GLM-5는 오픈소스 모델이 단순한 대화형 AI를 넘어 자율적인 에이전틱 엔지니어링 도구로 진화할 수 있음을 보여주었다. 특히 DSA와 같은 효율적인 아키텍처와 정교한 강화학습 파이프라인의 결합은 향후 고성능 모델 개발의 표준이 될 것이다. 또한 하드웨어 제약이 있는 환경에서도 소프트웨어 최적화를 통해 최상위권 성능을 낼 수 있다는 점은 국내 AI 인프라 전략에도 시사하는 바가 크다.
챕터별 상세
00:00
GLM-5 개요 및 벤치마크 성능 분석
GLM-5는 이전 버전인 GLM-4.5 대비 비약적인 성능 향상을 이루었으며 주요 오픈소스 모델 리더보드에서 최상위권을 기록했다. 특히 인공지능 지수(Artificial Analysis Intelligence Index)에서 10가지 평가 항목을 종합했을 때 클로즈드 소스 모델인 Claude 3.5 Sonnet이나 Gemini 1.5 Pro와 대등한 수준의 성능을 보여주었다. 이는 모델의 규모 확장뿐만 아니라 아키텍처와 학습 파이프라인의 근본적인 개선이 뒷받침된 결과이다.
- •GLM-4.5 대비 벤치마크 점수가 대폭 상승하여 글로벌 최상위권 모델들과 경쟁 가능한 수준에 도달했다
- •추론, 코딩, 수학 등 에이전틱 작업에 필수적인 영역에서 특히 강점을 보였다
01:10
DSA(DeepSeek Sparse Attention) 아키텍처의 도입
GLM-5 아키텍처의 핵심 변화는 DSA(DeepSeek Sparse Attention)의 채택이다. 기존의 고정된 어텐션 방식과 달리 인덱서를 사용하여 모델이 연산 시 주목해야 할 과거 토큰을 선택적으로 결정함으로써 토큰 처리 효율성을 획기적으로 높였다. 이를 통해 모델 크기를 최대 7,000억 개의 파라미터까지 확장할 수 있었으며 학습 시 토큰 예산 배분을 최적화하여 성능을 극대화했다.
- •인덱서를 통한 동적 토큰 선택으로 연산 복잡도를 줄이고 효율성을 개선했다
- •최대 700B 파라미터 규모까지 모델을 확장할 수 있는 기반 아키텍처를 구축했다
02:30
다단계 학습 파이프라인: Pre-training에서 Post-training까지
GLM-5의 학습은 일반 코퍼스를 활용한 Pre-training, 문맥 길이를 단계적으로 확장하는 Mid-training, 그리고 에이전틱 능력을 주입하는 Post-training의 3단계로 구성된다. Mid-training 과정에서는 4K에서 시작하여 32K를 거쳐 최종적으로 200K까지 문맥 길이를 확장하며 긴 문맥 이해도를 높였다. Post-training에서는 SFT 이후 추론(Reasoning), 에이전틱(Agentic), 일반(General) 강화학습을 순차적으로 진행하여 복잡한 작업 수행 능력을 강화했다.
- •4K에서 200K까지 단계적으로 문맥 길이를 확장하는 Mid-training 전략을 사용했다
- •추론과 에이전틱 작업에 특화된 다단계 강화학습(RL) 파이프라인을 구축했다
04:30
치명적 망각 방지를 위한 On-Policy Cross-Stage Distillation
강화학습의 각 단계에서 새로운 능력을 배울 때 기존 능력이 저하되는 '치명적 망각' 문제를 해결하기 위해 On-Policy Cross-Stage Distillation 기법을 적용했다. 이는 이전 단계의 체크포인트 모델을 교사 모델로 설정하고 현재 학습 중인 모델이 교사 모델의 로짓(Logits)을 따라가도록 유도하는 방식이다. 결과적으로 추론 능력을 강화하면서도 일반적인 대화나 지식 능력을 안정적으로 유지하는 데 성공했다.
- •이전 단계 모델을 교사로 활용하는 지식 증류 기법을 통해 모델 안정성을 확보했다
- •다양한 도메인의 능력을 동시에 유지하며 에이전틱 성능을 향상시켰다
09:30
에이전틱 능력을 위한 세 가지 사고 모드(Thinking Modes)
GLM-5는 작업의 복잡도에 따라 세 가지 사고 모드를 지원하도록 설계되었다. 도구 호출 전후에 사고 과정을 포함하는 'Interleaved Thinking', 코딩 시 이전의 사고 과정을 유지하는 'Preserved Thinking', 그리고 가벼운 작업을 위한 'Turn-level Thinking'이 그것이다. 이러한 구조는 모델이 복잡한 코딩 시나리오나 다단계 도구 사용 시 일관성을 유지하고 오류를 스스로 수정할 수 있게 한다.
- •작업 성격에 맞춰 사고 과정을 최적화하는 세 가지 템플릿 모드를 도입했다
- •Preserved Thinking 모드를 통해 긴 코딩 작업에서의 정보 손실과 불일치를 방지했다
13:00
RL 인프라 'Slime'과 추론 최적화 기법
대규모 강화학습을 효율적으로 수행하기 위해 'Slime'이라는 비동기 강화학습 프레임워크를 개발했다. 이 시스템은 학습기와 생성기를 분리하여 GPU 자원 활용도를 극대화하며 복잡한 롤아웃 로직을 유연하게 처리한다. 또한 추론 속도를 높이기 위해 FP8 양자화와 Multi-Token Prediction(MTP)을 적용했으며 특히 MTP를 통해 한 번에 3개의 토큰을 예측함으로써 긴 문장 생성 시 지연 시간을 대폭 단축했다.
- •비동기 RL 프레임워크 Slime을 통해 대규모 모델의 학습 효율을 높였다
- •FP8 양자화와 MTP 기법을 결합하여 추론 속도와 처리량을 개선했다
31:00
중국 칩 인프라 적응 및 하드웨어 최적화
GLM-5는 중국 내 다양한 하드웨어 환경(Ascend NPU 등)에서 최적으로 작동하도록 커스텀 커널을 개발하고 최적화했다. DSA 아키텍처의 병목 현상을 해결하기 위해 Lightning Indexer와 같은 전용 커널을 설계했으며 하드웨어 특성에 맞춘 혼합 정밀도 학습 전략을 사용했다. 이는 특정 하드웨어 제약 하에서도 글로벌 수준의 모델 성능을 뽑아낼 수 있음을 증명한 사례이다.
- •Ascend NPU 등 중국산 가속기에 최적화된 전용 커널과 학습 전략을 적용했다
- •하드웨어 제약을 극복하기 위한 소프트웨어 레벨의 아키텍처 최적화를 수행했다
실무 Takeaway
- DSA(DeepSeek Sparse Attention)를 도입하면 대규모 모델에서도 연산 효율성을 유지하며 긴 문맥을 처리할 수 있다
- On-Policy Cross-Stage Distillation은 다단계 강화학습 과정에서 발생하는 모델의 성능 퇴행을 막는 효과적인 수단이다
- 에이전틱 성능을 위해서는 단순 생성이 아닌 사고 과정(Thinking Modes)을 구조화한 학습 템플릿이 필수적이다
- 특정 하드웨어 환경에 맞춘 커스텀 커널 최적화는 모델의 실질적인 학습 및 추론 성능을 결정짓는 핵심 요소이다
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 02. 21.수집 2026. 02. 21.출처 타입 YOUTUBE
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.