파라미터 중복성
딥러닝 모델의 서로 다른 레이어나 유닛이 동일하거나 매우 유사한 기능을 중복해서 학습하여 발생하는 비효율성이다. 본 아키텍처에서는 서로 다른 레이어의 FFN이 유사한 변환을 수행하는 현상을 지적하며, 이를 해결함으로써 모델의 실질적 용량을 높이고자 한다.