throughput
단위 시간당 시스템이 처리할 수 있는 작업의 양을 의미한다. LLM 추론에서는 초당 생성되는 총 토큰 수로 측정하며 서비스의 경제성과 직결되는 지표이다.
H100 1.6만 개로 Llama 3.1 학습하면? MFU 1% 오차로 맞히는 시뮬레이터
GPU만으로는 부족하다? AI 서비스 성공을 결정짓는 배치 크기의 비밀
Lua에서 Go로 전환하여 스케줄러 성능 1300% 향상시킨 비결
LLM 추론 속도 2배 향상, 사소한 오답은 넘기는 AutoJudge 기술
LLM 추론 속도와 비용, 컨티뉴어스 배칭으로 한 번에 해결하기