통합 트랜스포머
텍스트, 이미지, 비디오, 오디오 등 서로 다른 모달리티를 별도의 타워가 아닌 하나의 단일 신경망 아키텍처 내에서 처리하는 구조이다. 모든 데이터가 동일한 잠재 공간에서 상호작용하므로 모달리티 간의 깊은 이해와 복합적인 추론이 가능하다.