본문으로 건너뛰기

flash-attention

플래시 어텐션

고급

트랜스포머 모델의 핵심인 어텐션 연산을 메모리 효율적으로 수행하도록 최적화한 알고리즘이다. GPU/NPU의 메모리 계층 구조를 활용하여 연산 속도를 높이고 긴 컨텍스트 처리를 가능하게 한다.