인터리브드 토큰
텍스트 데이터와 이미지 데이터를 하나의 연속된 시퀀스 안에 섞어서 배치하는 방식이다. 이를 통해 모델은 별도의 인코더 없이도 텍스트 지시사항과 시각적 요소 사이의 공간적 관계를 직접적으로 학습하고 추론한다.