공동 학습
서로 다른 모달리티(텍스트, 이미지 등)를 별도의 단계 없이 하나의 학습 과정에서 동시에 최적화하는 방식이다. 모달리티 간의 상호 이해도를 높여 멀티모달 성능을 극대화하는 데 기여한다.