핵심 요약
AWS Blackwell 환경에서 Qwen 3.5-122B의 FP8 KV 캐시 손상 문제와 DeltaNet 아키텍처로 인한 최적화 제약을 분석하고 DeepSeek-V2.5와 성능을 비교했다.
배경
AWS g7e.48xlarge(8x RTX PRO 6000 Blackwell) 환경에서 SGLang을 사용하여 Qwen 3.5-122B 모델의 성능을 측정하고, 이전 DeepSeek-V2.5 벤치마크 결과와 비교하여 최적화 경로를 탐색했다.
의미 / 영향
Qwen 3.5-122B는 높은 품질을 제공하지만 DeltaNet 아키텍처로 인해 기존의 하드웨어 가속 최적화 기법들을 적용하기 어렵다. 실무에서는 추론 엔진의 최적화 지원 여부에 따라 모델 선택을 결정해야 하며, 특히 FP8 정밀도 사용 시의 안정성 검증이 필수적이다.
커뮤니티 반응
최신 Blackwell 하드웨어에서의 실전 벤치마크 데이터에 대해 높은 관심을 보였으며, 특히 FP8 KV 캐시의 무음 오류(Silent Corruption) 보고가 유용한 정보로 평가받았다.
합의점 vs 논쟁점
합의점
- Qwen 3.5-122B의 DeltaNet 아키텍처가 기존 최적화 기법 적용을 어렵게 만든다.
- 실제 서비스 환경에서는 FP8 KV 캐시 대신 bf16을 사용하는 것이 안전하다.
실용적 조언
- Qwen 3.5-122B 구동 시 KV 캐시 설정을 반드시 bf16으로 고정하여 출력 손상을 방지해야 한다.
- SGLang 사용 시 DeltaNet 레이어 호환성을 위해 Triton 백엔드 플래그를 강제 설정해야 한다.
섹션별 상세
실무 Takeaway
- Qwen 3.5-122B에서 FP8 KV 캐시는 무음 오류를 발생시키므로 반드시 bf16을 사용해야 한다.
- DeltaNet 구조로 인해 CUDA 그래프나 HiCache 같은 주요 SGLang 최적화 기능을 사용할 수 없다.
- 단일 요청 성능 개선을 위해서는 MTP 최적화가 필수적이며 약 2.75배의 속도 향상을 제공한다.
- 순간 처리량(Burst)과 품질 면에서는 Qwen 3.5가 우세하지만, 지속 서빙 성능은 DeepSeek-V2.5가 더 높다.
언급된 도구
LLM 추론 및 서빙 엔진
8x RTX PRO 6000 Blackwell 기반 클라우드 인스턴스
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.