GLM-5V-Turbo: 멀티모달 에이전트를 위한 네이티브 파운데이션 모델을 향하여

기존 멀티모달 모델들이 언어 모델의 보조 인터페이스로 시각 기능을 사용했던 것과 달리, 인지 능력을 추론과 계획의 핵심 요소로 통합한 네이티브 모델이다. 이를 통해 복잡한 GUI 조작, 시각적 도구 활용, 멀티모달 코딩 등 실제 환경에서의 에이전트 수행 능력을 비약적으로 향상시켰다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

CogViT 비전 인코더 개발

멀티모달 인지와 에이전트 작업에 최적화된 파라미터 효율적 비전 인코더를 설계했다. SigLIP2와 DINOv3를 활용한 증류 기반 마스크 이미지 모델링을 통해 세밀한 객체 인식과 공간 지각 능력을 확보했다.

Multimodal Multi-Token Prediction (MMTP) 도입

텍스트와 멀티모달 입력을 모두 지원하는 확장된 MTP 설계를 제안했다. 시각적 임베딩 대신 공유 가능한 <|image|> 토큰을 플레이스홀더로 사용하여 통신 복잡도를 줄이고 학습 안정성을 개선했다.

30개 이상의 카테고리에 대한 합동 강화학습

인지, 추론, 에이전트 능력을 아우르는 30개 이상의 작업 카테고리에 대해 대규모 멀티모달 RL을 수행했다. 이를 통해 GUI 에이전트 성능은 4.9%, 비디오 이해도는 5.6% 향상되는 등 전반적인 에이전트 역량을 강화했다.

ImageMining 벤치마크 제안

모델이 이미지를 단순히 보는 것을 넘어 시각적 맥락 안에서 사고하고 깊이 있게 검색하는 능력을 평가하는 새로운 비전 중심 딥서치 벤치마크를 구축했다.

핵심 아이디어 이해하기

기존의 멀티모달 모델은 텍스트 중심의 Transformer 아키텍처에 시각 정보를 외부 데이터처럼 주입하는 방식이어서, 복잡한 시각적 맥락을 추론의 핵심으로 삼기 어려웠다. GLM-5V-Turbo는 인지(Perception)를 언어 추론과 동일한 위계의 핵심 구성 요소로 통합하기 위해 아키텍처 수준에서 네이티브 멀티모달 설계를 채택했다.

핵심은 Multimodal Multi-Token Prediction(MMTP)이다. 일반적인 언어 모델은 다음 토큰 하나를 예측하며 학습하지만, MMTP는 시각적 정보가 포함된 시퀀스에서 여러 토큰을 동시에 예측하도록 설계되었다. 이때 고차원의 시각 임베딩을 직접 전달하는 대신 <|image|>라는 특수 토큰을 플레이스홀더로 활용하여 텍스트와 이미지 데이터 간의 분포 차이에서 오는 최적화 난이도를 해결하고 시스템 확장성을 확보했다.

결과적으로 모델은 이미지를 단순한 '참조용 부가 정보'가 아니라, 코드를 생성하거나 도구를 실행하기 위한 '직접적인 추론의 근거'로 처리하게 된다. 이는 마치 사람이 화면을 보면서 실시간으로 웹사이트를 코딩하거나 주식 차트를 분석하는 것과 유사한 인지-행동 루프를 가능하게 한다.

관련 Figure

#2Diagram
시각 임베딩을 직접 전달하는 대신 <|image|> 플레이스홀더를 사용하는 Option 3가 채택되었음을 보여준다. 하단 그래프는 이 방식이 더 낮은 학습 손실(Loss)을 달성함을 시각화한다.
멀티모달 멀티 토큰 예측(MMTP)의 세 가지 설계 옵션과 채택된 구조를 보여주는 다이어그램이다.

방법론

전체적인 접근 방식은 네이티브 멀티모달 모델링을 위해 모델 설계, 학습 인프라, 에이전트 프레임워크를 통합적으로 재설계하는 것이다. CogViT 인코더는 2단계 사전 학습을 거치는데, 1단계에서는 마스킹된 영역(35% 비율)을 입력으로 하여 교사 모델의 특징 공간을 재구성하도록 학습한다. [마스킹된 이미지 → ViT 인코더 → 교사 모델 특징 재구성 → 시각적 표현력 강화]

MMTP 메커니즘은 시각적 위치 정보를 보존하면서 모든 시각 토큰을 공유 학습 가능한 <|image|> 토큰으로 대체하여 MTP 헤드에 전달한다. [시각/텍스트 입력 → Transformer 블록 → <|image|> 토큰 기반 다중 예측 → 통신 효율 및 학습 안정성 확보] 이는 파이프라인 병렬화 시 시각 임베딩을 전송할 필요를 없애 통신 복잡도를 낮춘다.

학습 인프라 측면에서는 VLM RL Gym을 구축하여 단일 단계 및 다단계 작업을 통합 관리한다. 보상 시스템은 규칙 기반 검증기와 모델 기반 판정기를 비동기적으로 호출하여 메인 학습 코드와 분리 운영한다. [추론 요청 → 비동기 보상 계산 → 데이터 소스별 태깅 → 병렬 지표 집계] 또한 메모리 병목을 해결하기 위해 ViT 부분의 활성화 메모리를 CPU로 오프로딩하는 전략을 사용했다.

관련 Figure

#1Chart
CogViT-L(403M) 모델이 ImageNet-1K, CLIP Bench 등 주요 지표에서 더 큰 파라미터를 가진 모델들(DFN-H, MetaCLIP2-H)과 대등하거나 우수한 성능을 보임을 나타낸다. 이는 제안된 비전 인코더의 효율성을 증명한다.
CogViT와 다른 최신 비전 인코더들의 성능 비교 차트이다.

주요 결과

GLM-5V-Turbo는 멀티모달 코딩 벤치마크인 Design2Code에서 94.8점을 기록하며 Claude Opus 4.6(77.3점)을 크게 앞섰다. GUI 에이전트 성능을 측정하는 AndroidWorld와 WebVoyager에서도 각각 75.7점과 88.5점을 기록하며 강력한 실무 능력을 입증했다.

멀티모달 도구 사용 능력 평가인 ImageMining에서는 30.7점, MMSearch에서는 72.9점을 기록했다. 특히 MMSearch-Plus에서는 이전 세대 모델인 GLM-4.6V 대비 약 8배 향상된 성능을 보이며 복잡한 웹 탐색 및 정보 추출 능력이 비약적으로 발전했음을 보여주었다.

텍스트 전용 코딩 능력 또한 보존되었다. CC-Backend(22.8점), CC-Frontend(68.4점) 등에서 언어 전용 베이스 모델인 GLM-5-Turbo와 대등하거나 이를 능가하는 성과를 거두어, 시각 기능 추가가 기존의 언어 지능을 저해하지 않음을 확인했다.

관련 Figure

#5Chart
GLM-5V-Turbo가 Design2Code에서 94.8점을 기록하며 Kimi K2.5 및 Claude Opus 4.6을 능가하는 성능을 보여준다. 특히 GUI 에이전트 영역에서 타 모델 대비 압도적인 수치를 기록하고 있다.
멀티모달 코딩, 도구 사용, GUI 에이전트 벤치마크 결과표이다.

기술 상세

아키텍처의 핵심인 CogViT는 Muon 옵티마이저와 QK-Norm을 도입하여 대규모 학습 시의 안정성을 확보했다. QK-Norm은 어텐션 계산 전 쿼리와 키 벡터를 정규화하여 로짓 폭발을 방지한다. [Query/Key → LayerNorm → Attention → 안정적인 그라디언트 흐름]

MMTP 설계 시 세 가지 대안(직접 임베딩 전달, 마스킹, 플레이스홀더 토큰)을 비교 분석한 결과, 플레이스홀더 방식이 최적화 효율과 시스템 확장성 면에서 가장 우수함을 입증했다. 이는 MTP 헤드가 텍스트와 상이한 분포를 가진 시각 임베딩을 직접 처리할 때 발생하는 부하를 줄여주기 때문이다.

강화학습 단계에서는 30개 이상의 태스크 카테고리를 합동 최적화(Joint Optimization)했다. 실험 결과, 멀티태스크 RL 설정이 단일 태스크 학습 시 발생하는 진동을 억제하고 서로 다른 도메인 간의 사고 패턴 전이(Transfer of thinking patterns)를 유도하여 전반적인 강건성을 높이는 것으로 나타났다.

인프라 측면에서는 토폴로지 인식 파티셔닝(Topology-aware partitioning)을 도입했다. 데이터 로딩 단계에서 컨텍스트 병렬화(CP)와 텐서 병렬화(TP) 경계를 정렬하여 불필요한 패치 텐서의 재분배 오버헤드를 제거하고 통신 버퍼를 약 7GB 절감했다.

한계점

멀티모달 컨텍스트 관리가 여전히 장기 에이전트의 병목 현상으로 남아 있다. 텍스트에 비해 이미지와 비디오는 컨텍스트 버짓을 훨씬 빠르게 소모하며, 현재의 메모리 메커니즘은 여전히 텍스트 중심적이어서 시각적 세부 사항의 장기 보존에 한계가 있다. 또한 에이전트의 전략적 창의성이 여전히 사람이 제공한 초기 데이터의 범주 내에 머무는 경우가 많다.

실무 활용

GLM-5V-Turbo는 실제 GUI 환경에서 작동하는 자율 에이전트 구축에 즉시 활용 가능하다. 특히 시각적 요소를 코드로 변환하거나 복잡한 문서를 분석하여 보고서를 작성하는 업무 자동화에 특화되어 있다.

UI/UX 디자인 스크린샷을 HTML/CSS 코드로 자동 변환하는 프론트엔드 개발 보조
주식 차트 및 재무제표 이미지를 분석하여 전문적인 투자 분석 보고서 자동 생성
웹 브라우저를 직접 조작하여 복잡한 예약, 구매, 정보 검색을 수행하는 개인용 AI 비서
제품 요구 사항 문서(PRD)를 바탕으로 실제 작동하는 웹 애플리케이션 프로토타입 구축

코드 공개 여부: 공개

코드 저장소 보기

관련 Figure

#7Screenshot
모델이 차트 이미지와 텍스트 데이터를 결합하여 기술적 분석, 기본적 분석, 투자 의견 등을 포함한 전문적인 리포트를 생성할 수 있음을 보여준다. 실무 활용 가능성을 뒷받침하는 예시이다.
GLM-5V-Turbo를 활용한 주식 분석 리포트 생성 사례이다.

키워드

Multimodal Agent(멀티모달 에이전트)Vision Encoder(비전 인코더)GUI Automation(GUI 자동화)Reinforcement Learning(강화학습)MMTP(멀티모달 멀티 토큰 예측)

GLM-5V-Turbo: 멀티모달 에이전트를 위한 네이티브 파운데이션 모델을 향하여

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

CogViT 비전 인코더 개발

Multimodal Multi-Token Prediction (MMTP) 도입

30개 이상의 카테고리에 대한 합동 강화학습

ImageMining 벤치마크 제안

핵심 아이디어 이해하기

관련 Figure

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

UI/UX 디자인 스크린샷을 HTML/CSS 코드로 자동 변환하는 프론트엔드 개발 보조
주식 차트 및 재무제표 이미지를 분석하여 전문적인 투자 분석 보고서 자동 생성
웹 브라우저를 직접 조작하여 복잡한 예약, 구매, 정보 검색을 수행하는 개인용 AI 비서
제품 요구 사항 문서(PRD)를 바탕으로 실제 작동하는 웹 애플리케이션 프로토타입 구축

코드 공개 여부: 공개

코드 저장소 보기

관련 Figure

키워드

Multimodal Agent(멀티모달 에이전트)Vision Encoder(비전 인코더)GUI Automation(GUI 자동화)Reinforcement Learning(강화학습)MMTP(멀티모달 멀티 토큰 예측)

GLM-5V-Turbo: 멀티모달 에이전트를 위한 네이티브 파운데이션 모델을 향하여

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

GLM-5V-Turbo: 멀티모달 에이전트를 위한 네이티브 파운데이션 모델을 향하여

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드