통합 아키텍처
텍스트, 이미지, 오디오 등 서로 다른 형태의 데이터를 하나의 신경망 구조 내에서 동시에 처리할 수 있도록 설계된 모델 구조이다. 데이터 모달리티별로 별도의 모델을 사용하는 대신 공통된 표현 공간을 공유함으로써 효율성과 상호 이해 능력을 높이는 것이 핵심이다.