멀티모달 확산 트랜스포머
텍스트와 이미지 데이터를 동일한 트랜스포머 블록에서 동시에 처리하는 아키텍처이다. 텍스트 토큰과 이미지 패치 간의 상호작용을 극대화하여 지시문에 따른 정교한 이미지 편집을 가능하게 하며, WeEdit에서는 LoRA를 통해 이 구조를 텍스트 중심 편집에 최적화한다.