트랜스포머 혼합
이해와 생성 경로를 단일 백본 내에서 통합하여 시너지를 내는 아키텍처이다. 기존의 분리된 인코더-디코더 구조 대신 통합된 트랜스포머 구조를 통해 멀티모달 정보를 처리하며, 이를 통해 텍스트와 이미지 간의 진정한 통합 표현 학습을 가능하게 한다.