멀티모달 생성
텍스트, 이미지, 오디오 등 서로 다른 형태의 데이터를 결합하여 새로운 콘텐츠를 만들어내는 기술이다. 이 글에서는 사진(이미지)을 입력받아 음악(오디오)을 생성하는 과정을 의미한다.
구글 Gemini, 사진 한 장으로 30초 분량의 고품질 음악 뚝딱 생성