메모리 대역폭 제한
연산 능력보다 메모리에서 데이터를 읽어오는 속도가 전체 성능을 결정하는 상태를 의미한다. LLM 추론 시 매 토큰 생성마다 수십 GB의 모델 가중치를 메모리에서 불러와야 하므로, 최신 GPU에서도 실제 연산 코어 활용률이 1% 미만으로 떨어지는 주요 원인이 된다.