디코드 단계
프리필 이후 토큰을 하나씩 순차적으로 생성하는 단계이다. 각 토큰 생성 시마다 모델 가중치 전체를 메모리에서 읽어와야 하므로 연산 성능보다는 메모리 대역폭이 성능의 병목이 된다.