Character.AI, AMD 및 DigitalOcean과 협력하여 추론 성능 2배 향상 달성

핵심 요약

Character.AI는 대규모 사용자 기반을 지원하기 위해 AMD Instinct MI325X GPU 플랫폼에서 Qwen3-235B 모델의 추론 성능을 최적화했다. DigitalOcean 및 AMD와의 협력을 통해 AITER 커널, FP8 실행 경로, 토폴로지 인식 GPU 할당 등을 적용하여 기존 비최적화 환경 대비 처리량을 2배 향상시켰다. 특히 TP8에서 DP2/TP4/EP4 구성으로 전환함으로써 지연 시간 제약 내에서 최대의 QPS를 확보하고 운영 비용을 획기적으로 절감했다. 이러한 성과는 하드웨어와 소프트웨어의 긴밀한 공동 설계를 통해 프로덕션급 AI 인프라를 구축한 결과이다.

배경

LLM 추론 구조 및 지연 시간 지표(TTFT, TPOT), Tensor Parallelism 및 Expert Parallelism 개념, Kubernetes 기반 GPU 오케스트레이션, AMD ROCm 및 vLLM 프레임워크

대상 독자

대규모 LLM 서비스를 운영하는 인프라 엔지니어 및 MLOps 전문가

의미 / 영향

AMD GPU가 엔비디아의 강력한 대안으로 자리 잡고 있음을 입증하며, 특정 하드웨어 토폴로지에 맞춘 소프트웨어 최적화가 클라우드 비용 효율성에 결정적인 영향을 미친다는 점을 시사한다.

섹션별 상세

Qwen3-235B 모델 최적화를 위해 AMD Instinct MI325X 플랫폼으로 전환하여 기존 대비 최대 2배의 요청 처리량(QPS)을 달성했다. Character.AI는 엄격한 지연 시간 및 동시성 제약 조건 하에서 5600/140(ISL/OSL) 워크로드를 처리하기 위해 AMD 및 DigitalOcean과 기술 협력을 진행했다. 결과적으로 p90 응답성을 유지하면서 노드당 요청 밀도를 극대화하는 성과를 거두었다.

vLLM 엔진에 AMD의 AITER(AI Tensor Engine for ROCm)를 통합하여 고성능 AI 연산자를 적용했다. FP8 가중치와 FP8 KV 캐시를 동시에 사용하여 VRAM 사용량을 약 50% 절감하고 메모리 대역폭 압박을 완화했다. 하드웨어 수준에서 FP8 네이티브 지원을 활용함으로써 데이터 타입 캐스팅 오버헤드를 줄이고 연산 속도를 높였다.

MoE(Mixture of Experts) 모델의 특성을 고려하여 전문가 병렬화(Expert Parallelism)를 최적화했다. 128개의 전문가를 가진 Qwen3 모델을 8개의 GPU에 분산할 때, 각 GPU가 16개의 전체 전문가를 호스팅하도록 설정하여 GPU 간 데이터 이동량을 최소화했다. CUDA 그래프 컴파일 설정을 조정하여 모델 시작 시간과 VRAM 활용도의 균형을 맞추었다.

단일 TP8 그룹 대신 두 개의 TP4 그룹을 사용하는 DP2(Data Parallelism 2) 구성을 도입하여 처리량을 극대화했다. TP4 구성은 각 GPU가 담당하는 연산량이 늘어나지만 통신 홉이 줄어드는 이점이 있다. 64 동시성 환경에서 DP2/TP4/EP4 설정은 기존 TP8 대비 약 45%, 일반적인 비최적화 환경 대비 91% 향상된 처리량을 기록했다.

듀얼 소켓 CPU 환경에서 NUMA 노드 간 통신 병목을 최소화하기 위해 토폴로지 인식 GPU 할당을 수행했다. k8s-device-plugin을 통해 동일한 NUMA 노드 내의 GPU들을 우선적으로 할당함으로써 CPU-GPU 간 지연 시간을 단축했다. 이는 TTFT(Time to First Token)의 저하를 방지하고 디코드 성능의 지터를 줄이는 데 결정적인 역할을 했다.

DigitalOcean Kubernetes(DOKS)를 활용하여 GPU 드라이버 및 장치 플러그인 관리의 운영 부담을 해소했다. DOKS는 하드웨어 호환 드라이버와 메트릭 익스포터가 포함된 GPU 드롭릿을 제공하여 신속한 온보딩을 지원했다. 또한 NFS를 통해 약 240GB 크기의 모델 가중치를 캐싱하여 모델 로딩 시간을 10-15% 단축했다.

이미지 분석

Diagram
듀얼 소켓 CPU 환경에서 각 NUMA 노드에 vLLM 인스턴스와 4개의 GPU 그룹을 할당하는 최적의 토폴로지를 보여준다. 이 구조는 CPU-GPU 간 통신 지연을 최소화하여 전체 처리량을 2배로 높이는 핵심 아키텍처이다.
8개 GPU 서버에서의 DP2 / TP4 / EP4 및 AITER 구성 다이어그램

Chart
MI325X 기반의 TP4(EP 포함/미포함)와 TP8 베이스라인의 TTFT 성능을 비교한다. 동시성이 증가함에 따라 TP8이 가장 낮은 지연 시간을 유지하지만, TP4 구성도 목표 동시성인 64까지는 허용 범위 내의 성능을 보여준다.
동시성 수준에 따른 TTFT(첫 번째 토큰 생성 시간) 비교 차트

Chart
동시성 증가에 따른 디코드 성능 변화를 나타낸다. TP8이 가장 안정적이지만, EP를 적용한 TP4 구성이 EP가 없는 경우보다 훨씬 우수한 성능을 보이며 고부하 환경에서도 효율적임을 입증한다.
동시성 수준에 따른 TPOT(출력 토큰당 시간) 비교 차트

Chart
동시성 64 지점에서 TP4 구성이 TP8 베이스라인에 근접하는 QPS를 기록함을 보여준다. 서버당 두 개의 TP4 그룹을 운영할 경우 단일 TP8 그룹보다 훨씬 높은 총 처리량을 달성할 수 있다는 근거를 제시한다.
동시성 수준에 따른 QPS(초당 요청 수) 비교 차트

실무 Takeaway

FP8 가중치와 FP8 KV 캐시를 함께 사용하면 AMD MI325X의 하드웨어 가속 경로를 유지하여 VRAM 효율과 처리량을 동시에 잡을 수 있다.
모델 크기가 허용한다면 TP8보다 DP2/TP4 구성이 통신 오버헤드 감소 덕분에 실제 프로덕션 환경에서 더 높은 QPS를 제공한다.
대규모 추론 시스템에서는 NUMA 노드와 xGMI 링크를 고려한 토폴로지 최적화가 지연 시간 안정성에 필수적이다.

언급된 리소스

GitHubAITER GitHub Repository

GitHubvLLM Project

문서Qwen3-235B-Instruct-FP8 Model Card