multi-modal
텍스트뿐만 아니라 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 동시에 이해하고 생성할 수 있는 능력이다. GPT-5.2와 같은 최신 모델은 여러 감각 데이터를 통합하여 더 복잡한 상황 맥락을 파악할 수 있다.
텍스트뿐만 아니라 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 동시에 이해하고 생성할 수 있는 능력이다. GPT-5.2와 같은 최신 모델은 여러 감각 데이터를 통합하여 더 복잡한 상황 맥락을 파악할 수 있다.