이차 복잡도
입력 데이터의 길이(L)가 늘어남에 따라 연산량이 그 제곱(L^2)에 비례하여 증가하는 성질로, 트랜스포머의 긴 문맥 처리 시 주요 병목 현상이 된다.
RNN의 한계를 넘다: 메모리 캐싱으로 트랜스포머급 회상 능력 구현