비전 트랜스포머
이미지를 패치 단위로 나누어 트랜스포머 구조로 처리하는 아키텍처이다. 기존 CNN 방식보다 전역적인 문맥 파악 능력이 뛰어나 멀티모달 모델의 시각 인코더로 널리 쓰인다.