네이티브 멀티모달리티(native-multimodality)이란 무엇인가요?

Question

Accepted Answer

별도의 시각 어댑터 없이 모델 아키텍처 내부에서 텍스트와 이미지를 통합하여 처리하는 방식이다. 학습 초기부터 두 데이터를 동일한 잠재 공간에서 다루기 때문에 공간 추론과 문맥 이해도가 기존 방식보다 뛰어나다.

native-multimodality