멀티모달 생성
텍스트, 이미지, 오디오 등 서로 다른 형태의 데이터를 결합하여 새로운 콘텐츠를 만들어내는 기술이다. 이 글에서는 사진(이미지)을 입력받아 음악(오디오)을 생성하는 과정을 의미한다.