본문으로 건너뛰기

multimodal-perception

멀티모달 인지

중급

텍스트뿐만 아니라 이미지, 영상, 오디오 등 다양한 형태의 데이터를 동시에 받아들이고 이해하는 능력이다. AI가 사진 속 음식을 인식하거나 차트를 분석하여 정보를 제공하는 등 현실 세계의 시각 정보를 처리하는 핵심 기술이다.