음성-텍스트-음성 파이프라인
음성을 텍스트로 변환(STT)하고, 이를 LLM이 처리한 뒤 다시 음성으로 합성(TTS)하는 기존의 단계적 구조이다. 각 단계마다 연산 시간이 추가되어 실시간 대화에서 지연 시간을 발생시키는 주요 원인이 된다.