하위 제곱 복잡도
연산량이 입력 길이의 제곱보다 낮은 수준(예: 선형 또는 로그-선형)으로 증가하는 특성으로, 대규모 데이터를 효율적으로 처리하기 위한 모델 설계의 목표이다.
RNN의 한계를 넘다: 메모리 캐싱으로 트랜스포머급 회상 능력 구현