트랜스포머 혼합 구조
서로 다른 역할을 하는 여러 Transformer 블록을 결합하여 정보를 처리하는 아키텍처이다. 본 논문에서는 시각 전문가 모델과 언어 모델 백본을 결합하여 시각 정보의 활용도를 높이는 데 사용된다.