TL;DR
대형 LLM의 실용적 분산 인퍼런스를 목표로 WAN상에서 여러 GPU를 연결하는 Shard의 설계와 실험을 소개한다. 먼저 GLM-5.2(744B)를 단일 GPU에 얹는 것이 불가능에 가깝다는 문제에서 출발해, 모델을 연속 블록으로 분할하고 각 블록을 서로 다른 GPU에 배치하는 파이프라인 병렬화 구조를 제안한다. 코디네이터는 모델 레이어를 전혀 보유하지 않고 임베딩/헤드를 통해 토큰을 추진하며, activations은 네트워크를 따라 전달된다. 이 과정에서 WAN 상의 30tok/s 수준의 처리 속도가 달성되며, 모든 실행은 verifiable receipt로 기록되어 신뢰성을 확보한다. WAN 지연이 병목이라는 근본 인식 아래, 추정 디코딩과 비동기 파이프라이닝으로 토큰 단위 왕복을 겹치고, CUDA-그래프 드래프트를 도입해 오버헤드를 크게 줄임으로써 3.8배의 속도 향상을 얻었다. 이로써 WAN 기반 분산 추론의 실용성을 입증하고, 향후 120B 모델의 퍼미션리스 스웜(Phase 3)으로 확장하는 로드맵도 제시한다.
섹션별 상세
실무 Takeaway
- WAN 기반 분산 인퍼런스에서 지연이 병목임을 확인하고, 추정 디코딩과 비동기 파이프라이닝으로 대역폭과 처리량을 높인다.
- CUDA-그래프 드래프트의 도입으로 파이프라인의 오버헤드를 줄이고, 49.7→13.1 ms/tok의 속도 개선을 달성한다.
- 코디네이터는 모델 레이어를 보유하지 않아도 분산 인퍼런스가 가능하고, 보호된 커뮤니케이션으로 보안을 유지한다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.