유니버설 트랜스포머
동일한 트랜스포머 레이어를 여러 번 반복 적용하여 모델의 깊이를 동적으로 조절하거나 파라미터 효율성을 높이는 아키텍처이다.
단순한 기법으로 재귀적 언어 모델의 성능 한계를 넘다
192개 레이어 효과? 바이트댄스 Ouro-2.6B 모델의 독특한 아키텍처와 수정 방법