universal-transformers
표준 트랜스포머에 재귀적 구조를 도입하여 입력의 복잡도에 따라 연산 횟수를 조절할 수 있게 설계된 아키텍처이다. 2018년 구글에서 제안했으나 실질적인 대규모 언어 모델 적용에는 한계가 있었다.
파라미터는 그대로, 성능은 폭발? 재귀적 모델의 귀환