Z.ai GLM-5 출시: 새로운 SOTA 오픈 웨이트 모델과 중국 AI 생태계의 급격한 부상

핵심 요약

Z.ai가 새로운 오픈 웨이트 모델 GLM-5를 출시하며 인공지능 업계의 주목을 받고 있다. GLM-5는 744B 파라미터 규모에 DeepSeek의 Sparse Attention 기술을 통합하여 효율성을 극대화했으며, 주요 벤치마크에서 기존 폐쇄형 모델들에 필적하는 성능을 보여주었다. 이와 함께 DeepSeek의 100만 토큰 컨텍스트 지원 소식과 MiniMax, Qwen 등 중국 기반 AI 랩들의 공격적인 릴리스가 이어지며 글로벌 AI 경쟁 구도가 재편되는 양상이다. 다만 급격한 수요 증가로 인한 GPU 자원 부족과 추론 비용 문제는 여전히 해결해야 할 과제로 남아 있다.

배경

MoE(Mixture of Experts), Sparse Attention, Quantization, RAG

대상 독자

LLM 배포 및 최적화 엔지니어, AI 전략 기획자, 오픈 소스 모델 활용 개발자

의미 / 영향

오픈 소스 모델이 독점적 모델의 성능을 빠르게 추격함에 따라 AI 시장의 진입 장벽이 낮아지고 있으며, 특히 중국 랩들의 기술 혁신이 전체 생태계의 표준을 주도하기 시작했다.

섹션별 상세

Z.ai의 GLM-5는 744B 파라미터(활성 40B) 규모의 MoE 아키텍처를 채택하고 28.5T 토큰으로 학습되어 오픈 웨이트 모델 중 최고 수준의 성능을 달성했다. 특히 DeepSeek Sparse Attention(DSA)을 통합하여 긴 컨텍스트 처리 비용을 획기적으로 낮추었으며, MIT 라이선스로 배포되어 생태계 확장이 기대된다. Artificial Analysis의 지능 지수에서 50점을 기록하며 GLM-4.7 대비 큰 폭의 성능 향상을 증명했다.

DeepSeek은 100만 토큰 컨텍스트 윈도우를 지원하는 업데이트를 예고하며 긴 문맥 이해 능력을 새로운 차원으로 끌어올렸다. 단순한 정보 추출을 넘어 문맥 전체를 점유하는 듯한 높은 주의 집중력을 보여준다는 평가를 받으며, Multi-head Latent Attention(MLA) 기술을 통해 메모리 효율성을 유지하면서도 방대한 데이터를 처리한다. 이는 코드베이스 전체 분석이나 장편 소설 처리에 혁신적인 변화를 가져올 전망이다.

Z.ai는 GLM-5 출시와 함께 심각한 컴퓨팅 자원 부족 문제를 공개적으로 시인하며 인프라 확장의 어려움을 토로했다. 현재 모든 칩을 추론 서비스에 한계까지 동원하고 있으며, 이로 인해 일반 사용자보다는 유료 플랜 사용자에게 우선적으로 모델을 제공하는 전략을 취하고 있다. 이는 고성능 AI 모델의 대중화에 있어 하드웨어 수급이 가장 큰 병목 현상임을 다시 한번 확인시켜 준다.

중국 AI 랩들은 MiniMax 2.5, Qwen-Image-2.0, StepFun 등 고성능 모델들을 연달아 출시하며 에이전트 전쟁 시대로의 진입을 선포했다. 특히 Qwen-Image-2.0은 7B 규모로 이미지 생성과 편집을 통합하고 2K 해상도와 정교한 텍스트 렌더링을 지원하여 로컬 환경에서의 활용도를 높였다. 이러한 공격적인 릴리스 주기는 서구권 모델들과의 기술 격차를 3개월 이내로 좁히는 결과를 낳고 있다.

비디오 생성 분야에서는 ByteDance의 SeeDance v2.0이 불쾌한 골짜기를 넘어선 고품질 영상을 선보이며 큰 충격을 주었다. 하지만 사진 한 장으로 목소리를 정확히 복제하는 기능이 개인정보 침해 우려를 낳으며 일시적으로 서비스가 중단되는 사태도 발생했다. 이는 AI 기술의 발전 속도가 윤리적 가이드라인과 규제 속도를 앞지르고 있음을 보여주는 사례로 평가된다.

개발자 도구 및 하드웨어 최적화 분야에서는 Unsloth의 MoE Triton 커널이 VRAM 사용량을 30% 줄이면서 학습 속도를 12배 높이는 성과를 거두었다. 또한 llama.cpp의 MCP(Multi-Component Protocol) 지원으로 로컬 모델과 클라우드 도구 간의 통합이 쉬워졌으며, Ryzen AI Max+와 같은 새로운 하드웨어를 활용한 로컬 LLM 구축 사례가 늘어나고 있다.

이미지 분석

Screenshot
GLM-5 모델이 텍스트 프롬프트를 바탕으로 구조화된 .docx 제안서를 생성하는 과정을 보여준다. 이는 모델이 단순 채팅을 넘어 실제 업무용 결과물을 생성하는 에이전트 능력을 갖추었음을 입증한다.
Z.ai의 Office 애플리케이션에서 GLM-5가 문서를 생성하는 데모 화면이다.

Chart
GLM-5가 지능 지수 50점을 기록하며 오픈 웨이트 모델 중 1위에 올랐음을 보여준다. 또한 에이전트 성능을 측정하는 GDPval-AA 벤치마크에서도 최상위권에 위치하여 실무 능력을 수치로 증명한다.
Artificial Analysis의 지능 지수 및 GDPval-AA 리더보드 차트이다.

Screenshot
GLM-5 출시 이후 급증한 수요로 인해 컴퓨팅 자원이 한계에 도달했음을 공식적으로 시인하는 내용이다. 고성능 모델 운영에 있어 하드웨어 인프라 확보가 핵심적인 병목 지점임을 시사한다.
Z.ai가 GPU 자원 부족 상황을 알리는 트윗 캡처본이다.

실무 Takeaway

GLM-5와 같은 대규모 오픈 웨이트 모델의 등장으로 기업들은 폐쇄형 API 의존도를 낮추고 자체 인프라에서 고성능 AI를 운영할 수 있는 선택지가 넓어졌다.
DeepSeek의 DSA 및 MLA 기술은 긴 컨텍스트 모델의 운영 비용을 획기적으로 절감할 수 있는 핵심 아키텍처로 자리 잡고 있다.
중국 AI 모델들은 성능 대비 가격 경쟁력이 서구권 모델의 1/5 수준까지 낮아지고 있어 비용 효율적인 AI 도입을 고려하는 개발자들에게 강력한 대안이 되고 있다.

언급된 리소스

문서Z.ai GLM-5 Blog Post