대역폭 제한
연산 장치의 계산 능력보다 메모리에서 데이터를 읽어오는 속도가 느려 전체 성능이 제한되는 상태이다. LLM 추론의 디코딩 단계에서 주로 발생하며 HBM 성능이 중요하게 작용한다.