융합 모델
여러 모달리티(텍스트, 오디오 등)를 하나의 신경망에서 동시에 처리하는 모델이다. 계층형 시스템보다 지연 시간이 낮고 자연스러운 반응이 가능하지만, 제어와 신뢰성 확보가 상대적으로 어렵다.