깊이 혼합
모델의 모든 레이어에서 동일한 연산량을 사용하는 대신, 토큰별로 필요한 연산 깊이를 동적으로 결정하는 아키텍처이다. 이를 통해 추론 효율성을 높이면서도 깊은 네트워크의 표현력을 유지할 수 있다.