게이트 선형 유닛
입력값에 게이트 메커니즘을 적용하여 정보의 흐름을 제어하는 신경망 구조이다. 특정 정보는 통과시키고 나머지는 차단하여 모델의 표현력을 높인다.
GPT-2를 능가하는 357M 파라미터의 독창적 아키텍처 Prisma 공개