인터리빙
하나의 프롬프트 내에서 이미지와 텍스트 시퀀스를 교차하여 배치하는 기술이다. 모델이 여러 이미지를 비교하거나 시각적 흐름을 따라가며 추론할 수 있게 하여 복잡한 멀티모달 대화를 가능하게 한다.