음성-텍스트-음성 파이프라인
음성을 텍스트로 변환(STT)하고, 이를 LLM이 처리한 뒤 다시 음성으로 합성(TTS)하는 기존의 단계적 구조이다. 각 단계마다 연산 시간이 추가되어 실시간 대화에서 지연 시간을 발생시키는 주요 원인이 된다.
지연 시간의 벽을 허물다: OpenAI Realtime API로 구현하는 끊김 없는 음성 AI