decode-phase
프리필 이후 토큰을 하나씩 순차적으로 생성하는 단계이다. 각 토큰 생성 시마다 모델 가중치 전체를 메모리에서 읽어와야 하므로 연산 성능보다는 메모리 대역폭이 성능의 병목이 된다.
학습의 시대는 끝났다? 이제는 '추론'이 AI 성능을 결정하는 핵심 지표