멀티모달 모델
텍스트뿐만 아니라 이미지, 오디오, 비디오 등 서로 다른 형태의 데이터를 동시에 이해하고 처리할 수 있는 인공지능 모델이다. Qwen 3.5와 같은 최신 모델은 시각 정보를 입력받아 텍스트로 설명하거나 복잡한 이미지를 분석하는 능력을 갖추고 있어, 단순한 텍스트 챗봇을 넘어 실제 세상을 인지하는 에이전트 개발에 필수적인 기술이다.