NVIDIA RTX PRO 6000 Blackwell 기반 Qwen 3.5 122B MoE 모델 벤치마크 결과

핵심 요약

최신 Blackwell GPU 환경에서 Qwen 3.5 122B MoE 모델의 프롬프트 처리, 토큰 생성 속도 및 컨텍스트 확장에 따른 성능 변화를 상세히 분석했다.

배경

NVIDIA RTX PRO 6000 Blackwell GPU에서 Qwen 3.5 122B MoE 모델의 성능을 llama.cpp를 통해 벤치마킹한 결과를 공유했다. 단일 스트림 성능부터 컨텍스트 확장 및 다중 사용자 동시 접속 시나리오까지 포함하여 실제 운영 환경에서의 성능 지표를 제시했다.

의미 / 영향

Blackwell 하드웨어와 Qwen 3.5 MoE 모델의 조합은 로컬 환경에서도 엔터프라이즈급 고성능 추론이 가능함을 입증했다. 특히 긴 컨텍스트에서의 안정적인 성능은 복잡한 RAG 시스템이나 긴 문서 분석 작업에서 실질적인 경쟁력을 제공한다.

커뮤니티 반응

작성자가 직접 수행한 상세한 벤치마크 데이터에 대해 신뢰를 표하며, 특히 Blackwell 하드웨어의 실질적인 성능 수치에 높은 관심을 보였다.

합의점 vs 논쟁점

합의점

Qwen 3.5 122B MoE 모델은 Blackwell GPU에서 매우 인상적인 추론 속도를 보여준다.
긴 컨텍스트(65K)에서도 토큰 생성 속도가 안정적으로 유지된다.

실용적 조언

인터랙티브한 긴 대화가 필요한 서비스라면 동시 접속 슬롯을 1~2개로 제한하여 개별 사용자의 속도를 보장해야 한다.
배치 작업이나 오프라인 처리 시에는 4개 이상의 동시 요청을 통해 전체 처리량을 극대화하는 것이 유리하다.
32K 이상의 긴 컨텍스트를 다룰 때는 TTFT가 수십 초 단위로 늘어날 수 있음을 사용자 인터페이스 설계에 반영해야 한다.

전문가 의견

토큰 생성 성능이 컨텍스트 65K에서도 10% 정도만 하락하는 것은 MoE 아키텍처와 Blackwell 하드웨어의 메모리 대역폭 효율성을 입증한다.

언급된 도구

llama.cpp추천

LLM 추론 엔진 및 서버 실행

llama-benchy추천

LLM 성능 측정을 위한 벤치마킹 도구

섹션별 상세

단일 스트림 기본 성능 측정 결과, 프롬프트 처리(PP) 속도는 배치 크기가 커질수록 증가하여 최대 2,900 t/s에 도달했다. 토큰 생성(TG) 속도는 생성 길이에 관계없이 약 80 t/s 수준에서 매우 안정적으로 유지되는 특성을 보였다. 첫 토큰 도달 시간(TTFT)은 프롬프트 크기에 비례하여 선형적으로 증가하며, 512 토큰 기준 220ms 수준으로 매우 빠른 응답성을 확인했다.

컨텍스트 길이에 따른 성능 변화 분석에서, 65K 토큰 깊이까지 확장했음에도 토큰 생성 속도는 72.7 t/s를 기록하며 초기 대비 약 11%의 성능 저하에 그쳤다. 프롬프트 처리 속도는 8K~16K 깊이에서 정점을 찍은 후 서서히 하락하는 양상을 보였다. TTFT는 컨텍스트가 깊어질수록 선형적으로 증가하여 65K 지점에서는 약 23초가 소요되는 것으로 나타났다.

동시 요청 수(Concurrency)를 늘렸을 때의 처리량 변화를 측정한 결과, 4개의 병렬 슬롯 사용 시 전체 처리량은 단일 요청 대비 1.76배인 143 t/s까지 상승했다. 하지만 개별 사용자에게 할당되는 속도는 약 36 t/s로 줄어들며 지연 시간이 증가하는 트레이드오프가 발생했다. 최대 피크 처리량은 짧은 요청들을 처리할 때 150 t/s까지 도달 가능한 것으로 확인됐다.

컨텍스트 깊이와 동시 요청이 결합된 실제 다중 사용자 시나리오에서는 성능 하락이 더욱 두드러졌다. 32K 컨텍스트에서 4명이 동시에 사용할 경우 개별 생성 속도는 13.4 t/s까지 떨어지고 TTFT는 29초를 초과하여 실시간 인터랙티브 서비스로는 부적합한 수준이 되었다. 따라서 긴 대화가 필요한 환경에서는 동시 접속자 수를 1~2명으로 제한하는 설정이 권장된다.

실무 Takeaway

단일 사용자 환경에서 80 t/s의 생성 속도와 1초 미만의 TTFT를 제공하여 매우 쾌적한 인터랙티브 경험이 가능하다.
65K 컨텍스트 깊이에서도 성능 저하가 11% 수준으로 억제되어 긴 문서 분석이나 복잡한 RAG 작업에 강점을 보인다.
멀티 유저 환경에서는 8K 컨텍스트 기준 2명까지는 인당 41 t/s로 원활한 사용이 가능하나, 4명 이상은 짧은 컨텍스트 작업에만 적합하다.
최대 처리량은 4개 슬롯 사용 시 150 t/s에 도달하여 배치 처리나 오프라인 작업에서 높은 효율을 기대할 수 있다.

핵심 요약

최신 Blackwell GPU 환경에서 Qwen 3.5 122B MoE 모델의 프롬프트 처리, 토큰 생성 속도 및 컨텍스트 확장에 따른 성능 변화를 상세히 분석했다.

배경

의미 / 영향

커뮤니티 반응

작성자가 직접 수행한 상세한 벤치마크 데이터에 대해 신뢰를 표하며, 특히 Blackwell 하드웨어의 실질적인 성능 수치에 높은 관심을 보였다.

합의점 vs 논쟁점

합의점

Qwen 3.5 122B MoE 모델은 Blackwell GPU에서 매우 인상적인 추론 속도를 보여준다.
긴 컨텍스트(65K)에서도 토큰 생성 속도가 안정적으로 유지된다.

실용적 조언

인터랙티브한 긴 대화가 필요한 서비스라면 동시 접속 슬롯을 1~2개로 제한하여 개별 사용자의 속도를 보장해야 한다.
배치 작업이나 오프라인 처리 시에는 4개 이상의 동시 요청을 통해 전체 처리량을 극대화하는 것이 유리하다.
32K 이상의 긴 컨텍스트를 다룰 때는 TTFT가 수십 초 단위로 늘어날 수 있음을 사용자 인터페이스 설계에 반영해야 한다.

전문가 의견

토큰 생성 성능이 컨텍스트 65K에서도 10% 정도만 하락하는 것은 MoE 아키텍처와 Blackwell 하드웨어의 메모리 대역폭 효율성을 입증한다.

언급된 도구

llama.cpp추천

LLM 추론 엔진 및 서버 실행

llama-benchy추천

LLM 성능 측정을 위한 벤치마킹 도구

섹션별 상세

실무 Takeaway

단일 사용자 환경에서 80 t/s의 생성 속도와 1초 미만의 TTFT를 제공하여 매우 쾌적한 인터랙티브 경험이 가능하다.
65K 컨텍스트 깊이에서도 성능 저하가 11% 수준으로 억제되어 긴 문서 분석이나 복잡한 RAG 작업에 강점을 보인다.
멀티 유저 환경에서는 8K 컨텍스트 기준 2명까지는 인당 41 t/s로 원활한 사용이 가능하나, 4명 이상은 짧은 컨텍스트 작업에만 적합하다.
최대 처리량은 4개 슬롯 사용 시 150 t/s에 도달하여 배치 처리나 오프라인 작업에서 높은 효율을 기대할 수 있다.

NVIDIA RTX PRO 6000 Blackwell 기반 Qwen 3.5 122B MoE 모델 벤치마크 결과

핵심 요약

배경

의미 / 영향

커뮤니티 반응

합의점 vs 논쟁점

합의점

실용적 조언

전문가 의견

언급된 도구

섹션별 상세

실무 Takeaway

NVIDIA RTX PRO 6000 Blackwell 기반 Qwen 3.5 122B MoE 모델 벤치마크 결과

핵심 요약

배경

의미 / 영향

커뮤니티 반응

합의점 vs 논쟁점

합의점

실용적 조언

전문가 의견

언급된 도구

섹션별 상세

실무 Takeaway

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글