memory-wall
프로세서의 연산 속도에 비해 메모리의 데이터 전송 속도가 따라가지 못해 전체 시스템 성능이 저하되는 현상이다. 특히 대규모 언어 모델의 추론 단계에서 가장 큰 성능 저하 원인으로 꼽힌다.
GPU는 비효율적이다? 모델을 칩에 직접 구워 17,000 TPS 구현한 타라스의 혁신
학습의 시대는 끝났다? 이제는 '추론'이 AI 성능을 결정하는 핵심 지표