트랜스퓨전 프레임워크
단일 Transformer 아키텍처 내에서 텍스트의 이산적 토큰 예측과 이미지의 연속적 확산(Diffusion) 과정을 동시에 처리할 수 있도록 설계된 통합 학습 구조이다. 언어 모델의 자기회귀적 특성과 이미지 생성 모델의 확산 원리를 결합하여 모달리티 간의 간섭을 최소화하면서도 강력한 통합 성능을 제공한다.