대화형 인필
대화형 인필은 응답 지연을 가리는 즉시 생성 응답을 내보내는 소형 Talker 모델과 고지능 Reasoner가 추론 중 생성하는 지식 청크를 추론 시점에 스트리밍으로 통합하는 협업 작업이다. 이 방식은 Reasoner의 고지능 처리를 병렬로 진행하면서 Talker가 <sil> 토큰 기반의 filler 문구로 초기 응답을 제공하여 사용자 체감 지연을 줄인다. 결과적으로 실무적 음성 에이전트가 밀리초급 응답시간과 고성능 모델 성능 근접성 사이의 트레이드오프를 완화한다.