컨포머
트랜스포머의 셀프 어텐션과 CNN의 국소적 특징 추출 능력을 결합한 신경망 구조이다. 음성 인식 분야에서 전역적 맥락과 지역적 오디오 특징을 모두 잘 포착하여 성능이 우수하다.