플래시 어텐션 2
어텐션 연산의 메모리 접근을 최적화하여 속도를 높이고 메모리 사용량을 줄이는 알고리즘이다. GPU의 SRAM과 HBM 간의 데이터 이동을 최소화하여 긴 시퀀스 처리에 필수적이다.