어텐션 복잡도
Transformer 계열 모델에서 입력 길이에 따라 계산량이 크게 늘어나는 요소로, 토큰 수가 줄어들면 쌍별 연산(또는 근사 기법 적용 시 연산량)이 감소하여 추론 시간과 메모리 사용량이 줄어든다. 본 게시물의 '추론 가속' 논점이 이 개념과 직접 연결된다.