KV 캐싱
이전 추론 단계에서 계산된 Key와 Value 텐서를 저장해두었다가 다음 단계에서 재사용함으로써 중복 계산을 방지하고 속도를 높이는 최적화 기법이다.
확산 모델의 느린 추론 해결, CDLM으로 최대 14.5배 빨라진다