메모리 대역폭 병목 현상 (memory-bandwidth-bottleneck) 용어 설명 | AI Trends
memory-bandwidth-bottleneck
메모리 대역폭 병목 현상
중급
GPU의 연산 속도(Tensor Core)가 메모리에서 데이터를 읽어오는 속도(HBM)보다 훨씬 빨라 발생하는 성능 저하 현상이다. LLM 추론 시 매 토큰 생성마다 모든 가중치를 읽어야 하므로, 연산 능력보다는 메모리에서 데이터를 얼마나 빨리 전달하느냐가 전체 성능을 결정하게 된다.