벡터 범용 레지스터
GPU의 각 스레드가 연산 데이터를 저장하기 위해 사용하는 가장 빠른 메모리 공간이다. 공유 메모리나 전역 메모리보다 접근 속도가 압도적으로 빠르며, 이를 효율적으로 활용하는 것이 커널 성능의 핵심이다.