디코드
프리필 이후 토큰을 하나씩 생성하는 단계이다. 매 토큰 생성 시마다 전체 KV Cache를 메모리에서 읽어와야 하므로 연산 속도보다는 메모리 대역폭(Memory Bandwidth)에 의해 성능이 결정된다.