LLM 성능 테스트의 핵심: Throughput과 Goodput의 차이

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Throughput은 시스템이 단위 시간당 처리하는 총 요청 수를 나타내지만, 응답 품질이나 지연 시간은 고려하지 않아 실제 사용자 경험과 괴리가 발생할 수 있다. Goodput은 TTFT(Time to First Token)와 ITL(Inter-Token Latency) 등 정의된 SLO를 충족한 요청만을 계산하여 실제 서비스 품질을 반영한다. NVIDIA AIPerf와 같은 도구는 이 지표를 통해 부하 상황에서의 성능 저하를 정확히 포착한다. 시스템이 건강할 때는 두 지표가 유사하지만, 부하가 증가할수록 Goodput이 Throughput보다 먼저 하락하며 성능 병목의 조기 경보 신호 역할을 한다.

배경

LLM 추론, 성능 테스트, SLO 개념

대상 독자

LLM 프로덕션 환경을 운영하거나 성능 테스트를 수행하는 엔지니어

의미 / 영향

LLM 서비스의 사용자 경험을 보장하기 위해 기존의 단순 처리량 중심 성능 지표에서 SLO 기반의 품질 중심 지표로 전환이 필요하다.

섹션별 상세

Throughput은 초당 요청 수(req/s) 등 시스템의 총 작업량만을 측정하며, 개별 요청의 지연 시간이나 성공 여부를 구분하지 못한다. 이로 인해 시스템이 정상적으로 작동하는 것처럼 보여도 실제 사용자는 높은 지연을 경험하는 상황이 발생한다. 기존 웹 성능 테스트 도구들은 이 한계를 보완하기 위해 백분위 지연 시간(p95, p99)을 사용한다.

Throughput과 Goodput의 개념적 차이를 설명하는 다이어그램 — DiagramThroughput은 시스템이 처리한 모든 요청을 의미하고, Goodput은 그중 SLO를 만족하는 유효한 요청만을 필터링하여 보여준다. 이 이미지는 단순 처리량과 실제 서비스 품질의 차이를 시각적으로 전달한다.

Goodput은 TTFT와 ITL 등 사전에 정의된 SLO를 충족하는 요청만을 계산하여 실제 사용자 관점의 서비스 품질을 측정한다. LLM 추론에서 TTFT가 길어지거나 ITL이 증가하면 사용자는 응답 지연이나 끊김을 경험하며, 이는 Throughput 지표에는 반영되지 않는다. Goodput은 이러한 성능 저하를 직접적으로 포착한다.

NVIDIA AIPerf는 --goodput-ttft와 --goodput-itl 플래그를 통해 설정된 SLO 기준에 따라 Goodput을 자동으로 계산한다. 부하 증가 시 Throughput은 유지되더라도 Goodput이 급격히 하락하는 현상은 시스템의 성능 한계와 품질 저하를 나타내는 핵심 지표이다. 이 지표는 시스템의 실제 생산 준비 상태를 판단하는 기준이 된다.

실무 Takeaway

LLM 성능 테스트 시 Throughput만 확인하지 말고, TTFT와 ITL을 포함한 SLO 기반의 Goodput을 반드시 함께 측정해야 한다.
시스템 부하 테스트 중 Throughput과 Goodput의 수치가 크게 벌어지는 지점을 찾아 실제 서비스 가능한 최대 용량을 산정한다.
NVIDIA AIPerf와 같은 도구를 활용하여 CI/CD 파이프라인에 Goodput 기반의 성능 검증 단계를 통합한다.

언급된 리소스

GitHubNVIDIA AIPerf