계층형 시스템
음성 인식, 번역, 음성 합성 등 여러 독립적인 모델을 순차적으로 연결한 구조이다. 각 단계의 결과가 다음 단계의 입력이 되며, 현재 AI 음성 에이전트의 신뢰성과 제어 가능성을 확보하는 주류 방식이다.