컨티뉴어스 배칭(Continuous Batching): LLM 추론 처리량 극대화를 위한 가이드

핵심 요약

대규모 언어 모델(LLM)의 실용화를 위해서는 다수 사용자의 요청을 동시에 처리하는 추론 효율성이 필수적이다. 이 글은 어텐션 메커니즘과 KV 캐싱(KV Caching)의 기본 원리에서 시작하여, 기존 배칭 방식의 고질적인 문제인 패딩(Padding)에 의한 자원 낭비를 해결하는 과정을 다룬다. 청크 단위 프리필(Chunked Prefill)과 래그드 배칭(Ragged Batching)을 결합한 컨티뉴어스 배칭(Continuous Batching) 기술이 어떻게 GPU 자원 활용도를 극대화하고 시스템 전체의 처리량을 높이는지 상세히 분석한다. 결과적으로 이 기술은 현대적인 LLM 서빙 시스템이 수천 명의 동시 사용자를 효율적으로 수용할 수 있게 하는 핵심 동력이다.

배경

Attention Mechanism, Transformer Architecture, Matrix Multiplication, GPU Memory Management

대상 독자

LLM 추론 엔진 개발자 및 MLOps 엔지니어

의미 / 영향

컨티뉴어스 배칭은 vLLM 등 현대적 추론 엔진의 표준 기술로 자리 잡았으며, 이를 통해 서버 운영 비용을 대폭 절감하고 더 많은 동시 접속자를 수용할 수 있게 되었다. 이는 대규모 AI 서비스의 경제적 타당성을 확보하는 데 결정적인 역할을 한다.

섹션별 상세

어텐션 메커니즘은 토큰 간의 상호작용을 정의하며, 프리필(Prefill) 단계에서 전체 시퀀스를 처리하여 다음 토큰을 예측한다. 이 과정은 시퀀스 길이에 따라 연산 복잡도가 제곱으로 증가하는 특성을 가지며, 모든 토큰이 독립적으로 처리되는 레이어와 달리 토큰 간의 연결을 만드는 유일한 지점이다.

KV 캐싱은 이전 단계에서 계산된 Key와 Value 상태를 메모리에 저장하여 디코딩(Decoding) 단계의 연산량을 O(n^2)에서 O(n)으로 획기적으로 줄인다. 이를 통해 매번 전체 시퀀스를 다시 계산할 필요 없이 새로 생성된 토큰에 대한 연산만 수행하면 되므로 추론 속도가 대폭 향상된다.

메모리 제약이 있는 환경에서 긴 프롬프트를 처리하기 위해 프리필 과정을 여러 조각으로 나누어 실행하는 청크 단위 프리필 기법을 사용한다. KV 캐싱을 활용하면 정보를 손실하지 않고도 점진적으로 프롬프트를 처리할 수 있어 GPU 메모리 부족 문제를 유연하게 해결한다.

기존의 단순 배칭 방식은 서로 다른 길이의 문장을 처리할 때 가장 긴 문장에 맞춰 짧은 문장에 패딩 토큰을 추가해야 하므로 GPU 자원 낭비가 심각하다. 특히 동적 스케줄링 상황에서 새로운 요청이 들어올 때마다 발생하는 패딩 비용은 배치 크기와 프롬프트 길이에 따라 기하급수적으로 증가하여 효율성을 저해한다.

래그드 배칭(Ragged Batching)은 패딩 대신 어텐션 마스크를 사용하여 여러 시퀀스를 하나의 차원으로 이어 붙여 처리하는 방식이다. 이를 통해 서로 다른 길이의 요청을 효율적으로 결합하며, GPU 메모리 예산 내에서 프리필과 디코딩 단계를 동시에 수행할 수 있는 구조적 기반을 제공한다.

컨티뉴어스 배칭은 래그드 배칭과 동적 스케줄링을 결합하여 완료된 요청은 즉시 제거하고 대기 중인 새로운 요청을 청크 단위로 즉시 투입한다. 이 방식은 GPU가 항상 유효한 토큰 연산에만 집중하게 함으로써 유휴 자원을 최소화하고 전체 시스템의 처리량(Throughput)을 극대화한다.

이미지 분석

Infographic
Gotta go fast라는 문구와 함께 캐릭터가 빠르게 달리는 모습을 통해 이 기술의 핵심 목표인 추론 속도 및 처리량 향상을 상징적으로 보여준다. 기사 전반에서 다루는 최적화 기법들의 최종적인 목적을 시각화했다.
컨티뉴어스 배칭의 빠른 처리량을 시각화한 배너 이미지

실무 Takeaway

KV 캐싱을 도입하여 디코딩 연산 비용을 선형 수준으로 낮춤으로써 실시간 응답 성능을 확보해야 한다.
패딩 제거를 위해 래그드 배칭을 적용하고 어텐션 마스크를 정교하게 설계하여 시퀀스 간 간섭 없이 GPU 연산 밀도를 높여야 한다.
프리필과 디코딩 단계를 혼합하여 배치에 구성함으로써 GPU 활용률을 상시 높은 수준으로 유지하고 대기 시간을 단축할 수 있다.

언급된 리소스

문서Mixture of Experts (MoEs) in Transformers

문서Tricks from OpenAI gpt-oss