네이티브 멀티모달리티
별도의 시각 어댑터 없이 모델 아키텍처 내부에서 텍스트와 이미지를 통합하여 처리하는 방식이다. 학습 초기부터 두 데이터를 동일한 잠재 공간에서 다루기 때문에 공간 추론과 문맥 이해도가 기존 방식보다 뛰어나다.