inference-decoding
대형 언어 모델이 텍스트를 생성할 때 토큰을 하나씩 순차적으로 만들어내는 과정이다. 이 단계는 연산 능력보다 메모리에서 데이터를 읽어오는 속도(대역폭)가 성능을 결정하므로, 메모리 구조가 최적화된 전용 가속기를 사용할 때 효율이 매우 높다.
대형 언어 모델이 텍스트를 생성할 때 토큰을 하나씩 순차적으로 만들어내는 과정이다. 이 단계는 연산 능력보다 메모리에서 데이터를 읽어오는 속도(대역폭)가 성능을 결정하므로, 메모리 구조가 최적화된 전용 가속기를 사용할 때 효율이 매우 높다.