플래시 어텐션
어텐션 메커니즘의 계산 효율을 높이는 기술이다. 메모리 읽기/쓰기 횟수를 줄여 추론 속도를 높이고 긴 컨텍스트 처리 시 메모리 사용량을 절감한다. 로컬 환경에서 제한된 자원으로 대규모 모델을 구동할 때 필수적인 최적화 기법 중 하나이다.