플래시 어텐션
트랜스포머 모델의 핵심인 어텐션 연산을 메모리 효율적으로 수행하도록 최적화한 알고리즘이다. GPU/NPU의 메모리 계층 구조를 활용하여 연산 속도를 높이고 긴 컨텍스트 처리를 가능하게 한다.