Shard: 분산 GPU 간 파이프라인으로 WAN 상 LLM 추론을 구현하다

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대형 LLM의 실용적 분산 인퍼런스를 목표로 WAN상에서 여러 GPU를 연결하는 Shard의 설계와 실험을 소개한다. 먼저 GLM-5.2(744B)를 단일 GPU에 얹는 것이 불가능에 가깝다는 문제에서 출발해, 모델을 연속 블록으로 분할하고 각 블록을 서로 다른 GPU에 배치하는 파이프라인 병렬화 구조를 제안한다. 코디네이터는 모델 레이어를 전혀 보유하지 않고 임베딩/헤드를 통해 토큰을 추진하며, activations은 네트워크를 따라 전달된다. 이 과정에서 WAN 상의 30tok/s 수준의 처리 속도가 달성되며, 모든 실행은 verifiable receipt로 기록되어 신뢰성을 확보한다. WAN 지연이 병목이라는 근본 인식 아래, 추정 디코딩과 비동기 파이프라이닝으로 토큰 단위 왕복을 겹치고, CUDA-그래프 드래프트를 도입해 오버헤드를 크게 줄임으로써 3.8배의 속도 향상을 얻었다. 이로써 WAN 기반 분산 추론의 실용성을 입증하고, 향후 120B 모델의 퍼미션리스 스웜(Phase 3)으로 확장하는 로드맵도 제시한다.

섹션별 상세

대형 frontier 모델 GLM-5.2(744B)를 단일 GPU에 올리면 메모리와 대역폭의 한계로 실행이 어렵다. Shard는 모델을 연속 블록으로 분할해 각 블록을 한 GPU에 배치하고, 코디네이터는 임베딩/헤드만 보유하며 토큰을 검증한다. WAN상에서 30 tok/s의 처리 속도를 달성했고, 모든 실행은 verifiable receipt로 기록된다. 이로써 고성능 모델의 분산 인퍼런스 가능성을 실증한다.

WAN 지연이 병목으로 작동한다는 근본 원인을 확인하고, 추정 디코딩과 비동기 파이프라이닝으로 토큰 단위 왕복을 겹치며 처리량을 높인다. 1.87의 latency-bound baseline에서 시작해 2.94의 꼬리 반환과 16.6의 오버랩을 거쳐, WAN의 비중을 줄이고 파이프라인의 전체 처리량을 높인다. 이로써 WAN에서의 병목을 제거하고 데이터센터 외부에서도 대형 모델 인퍼런스의 실용성을 확보한다.

CUDA-그래프 드래프트를 도입하면 전반적인 파이프라인 속도가 크게 증가한다. 3.8×의 속도 향상이 관찰되며, 49.7 ms/tok에서 13.1 ms/tok으로 감소한다. 또한 static KV 캐시를 도입해 추정 롤백을 허용하면서도 바이트-동일(Eager 경로와 동일한 출력)을 보장한다. 이로써 속도와 정확성의 균형을 유지하며 WAN 기반 시스템의 신뢰성을 높인다.

Shard의 설계 원칙은 Uncensored, Decentralized, Private의 세 축으로 요약된다. 코디네이터는 모델 레이어를 갖지 않고 draft만을 운용하며, 각 노드는 독립적인 KV 캐시를 가지는 방식으로 분산을 운영한다. 전송은 ChaCha20-Poly1305로 암호화되고, NAT 휴대성 확보를 위한 Hole-punching은 Phase 1에서 다룬다. 이러한 원칙은 보안성과 견고성을 높여 분산 인퍼런스의 실용 가능성을 뒷받침한다.

frontier-size의 GLM-5.2(744B)는 연구의 최전선 모델이며, GPT-OSS-120B가 차세대 목표가 된다. 120B 모델은 퍼미션리스 스웜의 타깃으로 제시되며, 최대 약 40 tok/s(피크 42) 수준의 속도를 기록한다. Phase 0의 Transport가 검증되었고, WAN 확장(Phase 1), Speculative decoding(Phase 2), 그리고 퍼미션리스 스웜(Phase 3)으로의 발전 로드맵이 제시된다. 이 여정은 커뮤니티 참여형 대규모 분산 인퍼런스의 가능성을 구체화한다.