알리바바, 성능과 효율성 극대화한 Qwen3.5 소형 모델 시리즈 공개

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

소형 언어 모델은 메모리 제약과 추론 속도 문제로 인해 성능 확장에 한계가 있었다. 알리바바 Qwen 팀은 Gated Delta Networks와 Mixture-of-Experts(MoE)를 결합한 하이브리드 아키텍처 기반의 Qwen3.5 소형 시리즈를 발표하여 이를 해결했다. 0.8B부터 9B까지의 라인업은 네이티브 멀티모달 학습을 통해 시각 이해 능력을 극대화했으며, 특히 9B 모델은 10배 이상 큰 모델들을 주요 벤치마크에서 능가하는 성과를 보였다. Apache 2.0 라이선스로 공개된 이 모델들은 모바일 및 에지 기기에서 고성능 AI 에이전트 구현을 가속화할 전망이다.

배경

Transformer 아키텍처에 대한 기본 이해, MoE 및 선형 어텐션 개념, GPU 메모리 및 VRAM 관리 지식

대상 독자

온디바이스 AI 개발자, 모바일 앱 엔지니어, LLM 비용 최적화가 필요한 기업

의미 / 영향

소형 모델의 성능 한계를 돌파함으로써 스마트폰이나 노트북 등 로컬 환경에서의 AI 에이전트 대중화를 앞당길 것이다. 특히 거대 모델에 의존하던 복잡한 시각/추론 작업을 저비용으로 대체할 수 있게 되어 에지 컴퓨팅 분야의 혁신이 예상된다.

섹션별 상세

Qwen3.5 소형 시리즈는 0.8B, 2B, 4B, 9B의 네 가지 크기로 구성된다. 0.8B와 2B는 배터리 수명이 중요한 에지 기기 최적화 모델이며, 4B는 262,144 토큰의 컨텍스트 윈도우를 지원하는 경량 에이전트용이다. 9B 모델은 추론 능력이 강화되어 다국어 지식 및 대학원 수준의 추론 벤치마크에서 거대 모델들을 상회하는 성과를 낸다.

표준 Transformer 구조에서 벗어나 Gated Delta Networks와 희소 Mixture-of-Experts(MoE)를 결합한 효율적 하이브리드 아키텍처를 채택했다. 이 방식은 소형 모델의 고질적 문제인 메모리 벽을 해결하여 추론 시 더 높은 처리량과 낮은 지연 시간을 실현한다. 선형 어텐션의 변형 기술을 통해 연산 효율성을 극대화한 것이 특징이다.

기존의 시각 인코더를 덧붙이는 방식이 아닌 초기 융합(early fusion) 방식을 통해 멀티모달 토큰으로 직접 학습되었다. 이를 통해 4B 및 9B 모델은 UI 요소 읽기나 비디오 내 객체 계산 등 기존에는 10배 더 큰 모델에서나 가능했던 수준의 시각적 이해력을 보여준다. 별도의 인코더 없이도 네이티브하게 시각 정보를 처리한다.

벤치마크 결과 Qwen3.5-9B는 MMMU-Pro 시각 추론에서 70.1점을 기록해 Gemini 2.5 Flash-Lite(59.7)를 앞섰다. GPQA Diamond 벤치마크에서도 81.7점을 획득하여 파라미터 수가 13배 더 많은 gpt-oss-120B(80.1)를 추월하는 등 체급을 뛰어넘는 성능을 입증했다. 수학 및 비디오 이해도 지표에서도 경쟁 모델 대비 압도적인 우위를 점했다.

Qwen3.5 소형 모델 시리즈의 주요 벤치마크 성능 비교표. — Chart0.8B에서 9B 모델이 MMMU-Pro, GPQA, Video-MME 등 다양한 지표에서 경쟁 모델(Gemini 2.5 Flash-Lite 등)과 비교해 우수한 성적을 거두고 있음을 시각적으로 보여준다. 특히 9B 모델이 거대 모델인 gpt-oss-120B를 상회하는 지표들을 확인할 수 있다.

모든 모델 가중치와 설정 파일은 Apache 2.0 라이선스로 공개되어 상업적 이용, 수정 및 배포가 자유롭다. 특히 Instruct 버전뿐만 아니라 Base 모델도 함께 출시되어 기업이나 연구팀이 특정 작업에 맞춰 자체적으로 미세 조정하기에 용이한 환경을 제공한다. 이는 개발자들이 벤더 종속성 없이 로컬 환경에서 AI를 구축할 수 있게 돕는다.

실무 Takeaway

온디바이스 AI 에이전트 구축 시 Qwen3.5-4B/9B를 활용하면 클라우드 API 비용 없이도 UI 탐색 및 문서 파싱 기능을 구현할 수 있다.
하이브리드 아키텍처(Gated Delta Networks + MoE) 덕분에 메모리 자원이 제한된 환경에서도 높은 추론 속도를 유지하며 복잡한 추론 작업을 수행할 수 있다.
Apache 2.0 라이선스의 Base 모델을 활용하여 기업 고유의 데이터를 학습시키면 벤더 종속성 없이 특화된 로컬 AI 솔루션을 구축할 수 있다.

언급된 리소스

문서Qwen3.5 Small Models Series benchmarks