핵심 요약
최신 Blackwell GPU 환경에서 Qwen 3.5 122B MoE 모델의 프롬프트 처리, 토큰 생성 속도 및 컨텍스트 확장에 따른 성능 변화를 상세히 분석했다.
배경
NVIDIA RTX PRO 6000 Blackwell GPU에서 Qwen 3.5 122B MoE 모델의 성능을 llama.cpp를 통해 벤치마킹한 결과를 공유했다. 단일 스트림 성능부터 컨텍스트 확장 및 다중 사용자 동시 접속 시나리오까지 포함하여 실제 운영 환경에서의 성능 지표를 제시했다.
의미 / 영향
Blackwell 하드웨어와 Qwen 3.5 MoE 모델의 조합은 로컬 환경에서도 엔터프라이즈급 고성능 추론이 가능함을 입증했다. 특히 긴 컨텍스트에서의 안정적인 성능은 복잡한 RAG 시스템이나 긴 문서 분석 작업에서 실질적인 경쟁력을 제공한다.
커뮤니티 반응
작성자가 직접 수행한 상세한 벤치마크 데이터에 대해 신뢰를 표하며, 특히 Blackwell 하드웨어의 실질적인 성능 수치에 높은 관심을 보였다.
합의점 vs 논쟁점
합의점
- Qwen 3.5 122B MoE 모델은 Blackwell GPU에서 매우 인상적인 추론 속도를 보여준다.
- 긴 컨텍스트(65K)에서도 토큰 생성 속도가 안정적으로 유지된다.
실용적 조언
- 인터랙티브한 긴 대화가 필요한 서비스라면 동시 접속 슬롯을 1~2개로 제한하여 개별 사용자의 속도를 보장해야 한다.
- 배치 작업이나 오프라인 처리 시에는 4개 이상의 동시 요청을 통해 전체 처리량을 극대화하는 것이 유리하다.
- 32K 이상의 긴 컨텍스트를 다룰 때는 TTFT가 수십 초 단위로 늘어날 수 있음을 사용자 인터페이스 설계에 반영해야 한다.
전문가 의견
- 토큰 생성 성능이 컨텍스트 65K에서도 10% 정도만 하락하는 것은 MoE 아키텍처와 Blackwell 하드웨어의 메모리 대역폭 효율성을 입증한다.
언급된 도구
llama.cpp추천
LLM 추론 엔진 및 서버 실행
llama-benchy추천
LLM 성능 측정을 위한 벤치마킹 도구
섹션별 상세
단일 스트림 기본 성능 측정 결과, 프롬프트 처리(PP) 속도는 배치 크기가 커질수록 증가하여 최대 2,900 t/s에 도달했다. 토큰 생성(TG) 속도는 생성 길이에 관계없이 약 80 t/s 수준에서 매우 안정적으로 유지되는 특성을 보였다. 첫 토큰 도달 시간(TTFT)은 프롬프트 크기에 비례하여 선형적으로 증가하며, 512 토큰 기준 220ms 수준으로 매우 빠른 응답성을 확인했다.
컨텍스트 길이에 따른 성능 변화 분석에서, 65K 토큰 깊이까지 확장했음에도 토큰 생성 속도는 72.7 t/s를 기록하며 초기 대비 약 11%의 성능 저하에 그쳤다. 프롬프트 처리 속도는 8K~16K 깊이에서 정점을 찍은 후 서서히 하락하는 양상을 보였다. TTFT는 컨텍스트가 깊어질수록 선형적으로 증가하여 65K 지점에서는 약 23초가 소요되는 것으로 나타났다.
동시 요청 수(Concurrency)를 늘렸을 때의 처리량 변화를 측정한 결과, 4개의 병렬 슬롯 사용 시 전체 처리량은 단일 요청 대비 1.76배인 143 t/s까지 상승했다. 하지만 개별 사용자에게 할당되는 속도는 약 36 t/s로 줄어들며 지연 시간이 증가하는 트레이드오프가 발생했다. 최대 피크 처리량은 짧은 요청들을 처리할 때 150 t/s까지 도달 가능한 것으로 확인됐다.
컨텍스트 깊이와 동시 요청이 결합된 실제 다중 사용자 시나리오에서는 성능 하락이 더욱 두드러졌다. 32K 컨텍스트에서 4명이 동시에 사용할 경우 개별 생성 속도는 13.4 t/s까지 떨어지고 TTFT는 29초를 초과하여 실시간 인터랙티브 서비스로는 부적합한 수준이 되었다. 따라서 긴 대화가 필요한 환경에서는 동시 접속자 수를 1~2명으로 제한하는 설정이 권장된다.
실무 Takeaway
- 단일 사용자 환경에서 80 t/s의 생성 속도와 1초 미만의 TTFT를 제공하여 매우 쾌적한 인터랙티브 경험이 가능하다.
- 65K 컨텍스트 깊이에서도 성능 저하가 11% 수준으로 억제되어 긴 문서 분석이나 복잡한 RAG 작업에 강점을 보인다.
- 멀티 유저 환경에서는 8K 컨텍스트 기준 2명까지는 인당 41 t/s로 원활한 사용이 가능하나, 4명 이상은 짧은 컨텍스트 작업에만 적합하다.
- 최대 처리량은 4개 슬롯 사용 시 150 t/s에 도달하여 배치 처리나 오프라인 작업에서 높은 효율을 기대할 수 있다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료