MoE 유사 어텐션
비디오와 액션 토큰이 동일한 self-attention을 공유하여 상호작용을 촉진하되 각 모달리티는 AdaLN과 MLP 분기처럼 경량의 모달리티 전용 덴어이징 경로를 유지하여 역할 분리를 보장하는 구조이다.