핵심 요약
AWS Blackwell 환경에서 Qwen 3.5-122B의 FP8 KV 캐시 손상 문제와 DeltaNet 아키텍처로 인한 최적화 제약을 분석하고 DeepSeek-V2.5와 성능을 비교했다.
배경
AWS g7e.48xlarge(8x RTX PRO 6000 Blackwell) 환경에서 SGLang을 사용하여 Qwen 3.5-122B 모델의 성능을 측정하고, 이전 DeepSeek-V2.5 벤치마크 결과와 비교하여 최적화 경로를 탐색했다.
의미 / 영향
Qwen 3.5-122B는 높은 품질을 제공하지만 DeltaNet 아키텍처로 인해 기존의 하드웨어 가속 최적화 기법들을 적용하기 어렵다. 실무에서는 추론 엔진의 최적화 지원 여부에 따라 모델 선택을 결정해야 하며, 특히 FP8 정밀도 사용 시의 안정성 검증이 필수적이다.
커뮤니티 반응
최신 Blackwell 하드웨어에서의 실전 벤치마크 데이터에 대해 높은 관심을 보였으며, 특히 FP8 KV 캐시의 무음 오류(Silent Corruption) 보고가 유용한 정보로 평가받았다.
합의점 vs 논쟁점
합의점
- Qwen 3.5-122B의 DeltaNet 아키텍처가 기존 최적화 기법 적용을 어렵게 만든다.
- 실제 서비스 환경에서는 FP8 KV 캐시 대신 bf16을 사용하는 것이 안전하다.
실용적 조언
- Qwen 3.5-122B 구동 시 KV 캐시 설정을 반드시 bf16으로 고정하여 출력 손상을 방지해야 한다.
- SGLang 사용 시 DeltaNet 레이어 호환성을 위해 Triton 백엔드 플래그를 강제 설정해야 한다.
언급된 도구
LLM 추론 및 서빙 엔진
AWS g7e.48xlarge중립
8x RTX PRO 6000 Blackwell 기반 클라우드 인스턴스
섹션별 상세
Qwen 3.5-122B의 FP8 KV 캐시 사용 시 발생하는 심각한 데이터 손상 문제가 확인됐다. fp8_e4m3 설정을 적용하면 에러 메시지 없이 출력이 느낌표나 반복적인 문구로 변하는 현상이 발생하며, 이를 해결하기 위해 bf16 KV 캐시 사용이 강제된다. 이는 이전 DeepSeek-V2.5 테스트에서는 발견되지 않았던 Qwen 3.5 모델만의 특이 현상이다.
DeltaNet 아키텍처 도입에 따른 기술적 제약 사항이 상세히 기록됐다. 표준 MoE 모델과 달리 Qwen 3.5는 CUDA 그래프, HiCache 등을 사용할 수 없으며, DeltaNet 레이어를 위해 Triton 백엔드를 강제로 활성화해야 하는 등 총 6개의 플래그 설정이 필요하다. 이러한 제약은 하드웨어의 잠재 성능을 완전히 활용하는 데 걸림돌이 된다.
최적화 기법 중 MTP(Multi-Token Prediction)가 단일 요청 속도를 약 2.75배 향상시키는 유일한 유효한 수단임이 입증됐다. 단일 요청 속도는 초당 약 9토큰에서 25토큰으로 증가했으나, 지속적인 서빙 성능(Online RPS) 지표에서는 최적화 제약이 없는 DeepSeek-V2.5가 여전히 우위를 점하고 있는 것으로 나타났다.
실무 Takeaway
- Qwen 3.5-122B에서 FP8 KV 캐시는 무음 오류를 발생시키므로 반드시 bf16을 사용해야 한다.
- DeltaNet 구조로 인해 CUDA 그래프나 HiCache 같은 주요 SGLang 최적화 기능을 사용할 수 없다.
- 단일 요청 성능 개선을 위해서는 MTP 최적화가 필수적이며 약 2.75배의 속도 향상을 제공한다.
- 순간 처리량(Burst)과 품질 면에서는 Qwen 3.5가 우세하지만, 지속 서빙 성능은 DeepSeek-V2.5가 더 높다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료