인터리브 추론
텍스트와 이미지가 교차로 배치된 복합적인 입력 데이터를 바탕으로 논리적 결론을 도출하는 과정이다. 시각적 정보와 언어적 정보를 동시에 고려해야 하는 고난도 작업에 필수적이다.