MELT
Memory-Efficient Looped Transformer의 약자이며, 루프형 트랜스포머의 메모리 성장 문제를 해결하기 위한 아키텍처로, 각 레이어에 대해 학습 가능한 gating으로 latent state를 관리하고 KV-cache를 공유한다.