multimodal
텍스트, 이미지, 음성 등 다양한 형태의 데이터를 동시에 처리하고 생성하는 기술이다. 이 아티클에서는 텍스트 서사에 시각적 요소를 결합하여 더 풍부한 사용자 경험을 만드는 데 활용된다.
20년 전 손글씨 생활기록부까지 판독한 클로드의 놀라운 분석력
RTX 4070으로 구현하는 로컬 GUI 자동화 에이전트 구축 가이드
제미나이가 작곡까지? 30초 만에 나만의 음악 만드는 Lyria 3 출시
금메달을 향한 AI 코칭: 구글 Gemini가 분석하는 국가대표의 점프
스마트폰이 바이오메카닉 연구소로? 구글 AI가 분석하는 올림픽 금메달의 비밀