multimodal-ai
텍스트뿐만 아니라 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 동시에 이해하고 생성하는 인공지능 기술이다.
사진 한 장으로 30초 노래 뚝딱? Gemini의 새로운 AI 음악 생성기 Lyria 3
구글 포토, 이제 제미나이로 사진 속 정보까지 척척 대답한다
아마존이 공개한 2025년 AI 기술 트렌드: 노바 모델부터 로보틱스까지
제미나이 3부터 아이언우드 TPU까지, 구글 AI 2025년 성과 총정리