메모리 대역폭 제한
연산 속도보다 메모리에서 데이터를 읽고 쓰는 속도가 느려 전체 성능이 제한되는 상태이다. LLM의 추론 과정 중 토큰을 하나씩 생성하는 디코딩 단계에서 주로 발생하며, 가중치 비트 수를 줄여 해결할 수 있다.