게이티드 게이트 선형 유닛
기존 GLU 구조에 추가적인 게이트 가중치를 도입하여 게이트 자체가 다른 게이트의 함수로 작동하게 만든 구조이다. 모델의 비선형 표현력을 극대화하여 더 적은 파라미터로 복잡한 패턴을 학습할 수 있게 한다.