플래시 어텐션
GPU의 메모리 계층 구조를 활용하여 어텐션 연산의 속도를 높이고 메모리 사용량을 줄이는 알고리즘이다. 중간 결과물을 HBM에 저장하지 않고 타일링 기법을 통해 SRAM 내에서 연산하여 메모리 대역폭 병목 현상을 해결한다.