CTA 스위즐링
GPU의 스레드 블록(CTA) 실행 순서를 재배치하여 인접한 데이터가 L2 캐시에 머무는 동안 최대한 재사용되도록 유도하는 최적화 기법이다. 메모리 대역폭 병목을 줄여 전체 연산 속도를 향상시킨다.
vLLM과 AWS의 협업: MoE 모델 Multi-LoRA 추론 성능 454% 향상 비결