ZCube: LLM 추론을 위한 새로운 네트워크 토폴로지

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

ZCube는 분리형 추론 환경에서 발생하는 KV Cache 병목 문제를 해결하기 위해 스파인 레이어를 제거하고 완전 이분 그래프 구조를 도입하여 성능과 비용을 동시에 개선했다.

배경

Zai, Tsinghua University, HarnetsAI 연구진이 GLM-5.1 추론 클러스터에서 기존 ROFT 토폴로지의 병목 문제를 해결하기 위해 ZCube 네트워크 토폴로지를 제안하고 그 성과를 공유했다.

의미 / 영향

이 토론은 LLM 추론 규모가 커짐에 따라 기존 학습용 네트워크 토폴로지의 한계가 명확해지고 있음을 시사한다. 네트워크 구조를 추론 워크로드 특성에 맞춰 재설계하는 것이 고가의 하드웨어 증설보다 비용 효율적인 성능 최적화 전략이 될 수 있다.

섹션별 상세

기존 ROFT 토폴로지는 Prefill-Decode 분리 추론 시 비대칭적인 KV Cache 전송으로 인해 특정 Leaf 스위치에 트래픽이 집중되는 문제가 발생한다. 이로 인해 PFC(Priority Flow Control) 백프레셔가 걸리며 대역폭 효율이 저하된다.

ZCube는 스파인 레이어를 완전히 제거하고 두 스위치 그룹 간 완전 이분 그래프(complete bipartite) 연결을 사용하여 네트워크를 재설계했다. 모든 GPU 쌍이 고유한 최적 경로를 가지게 되어, 라우팅 알고리즘에 의존하지 않고 토폴로지 자체에서 부하 분산이 이루어진다.

기존 ROFT 아키텍처와 새로운 ZCube 아키텍처의 네트워크 토폴로지 비교 다이어그램. — Diagram상단 ROFT 구조는 스파인 스위치를 거치는 과정에서 특정 링크에 트래픽이 충돌하는 병목 지점을 보여준다. 하단 ZCube 구조는 스파인 레이어를 제거하고 스위치 그룹 간 직접 연결을 통해 경로를 최적화하여 네트워크 효율을 개선했음을 시각적으로 나타낸다.

실제 1,000개 GPU 클러스터에서 GLM-5.1 모델로 테스트한 결과, 처리량은 15% 증가하고 P99 첫 토큰 지연 시간은 40% 감소했다. 또한 스위치와 광 모듈 비용을 33% 절감하여 성능 향상과 비용 절감을 동시에 달성했다.

실무 Takeaway

LLM 추론의 Prefill-Decode 분리 구조에서는 기존 학습용 네트워크 토폴로지(ROFT)가 비대칭적 KV Cache 전송으로 인한 병목을 유발할 수 있다.
스파인 레이어를 제거하고 완전 이분 그래프 토폴로지를 채택하면 네트워크 부하 분산을 하드웨어 구조 차원에서 최적화할 수 있다.
네트워크 토폴로지 재설계는 고가의 하드웨어 추가 없이도 추론 처리량 향상과 비용 절감을 동시에 달성하는 효과적인 시스템 설계 전략이다.