멀티모달 학습
텍스트, 이미지, 오디오, 비디오 등 서로 다른 형태의 데이터를 통합하여 학습시키는 기법이다. 이를 통해 모델은 다양한 감각 정보를 동시에 이해하고 처리할 수 있는 지능을 갖추게 된다.