벡터화된 메모리 접근
한 번의 메모리 명령으로 여러 개의 데이터(예: float4)를 동시에 읽거나 쓰는 기법이다. 메모리 대역폭 활용도를 극대화하고 명령어 수를 줄여 GPU 추론 및 학습 속도를 향상시킨다.