선형 어텐션
표준 어텐션 메커니즘의 연산 복잡도가 입력 길이의 제곱에 비례하는 문제를 해결하기 위해 고안된 기법이다. 연산량을 입력 길이에 선형적으로 비례하게 줄여 메모리 사용량을 최적화한다. 이를 통해 매우 긴 컨텍스트를 처리할 때도 성능 저하를 최소화하며 빠른 추론 속도를 유지할 수 있게 해준다.