토커-리즌어 아키텍처
Talker-Reasoner 아키텍처는 사용자와 직접 상호작용하는 저지연 소형 Talker 모델과 복잡한 추론·검색·툴 호출을 수행하는 고성능 Reasoner 모델로 역할을 분리한 구조이다. Reasoner는 지식 청크(r_i)를 비동기적으로 스트리밍하고 Talker는 수신된 청크를 문맥에 맞게 대화 형태로 통합하거나 Reasoner 지연 시 <sil> 기반의 filler를 생성한다. 이 분리는 실시간성 요구와 고급 기능 요구를 동시에 만족시키는 실용적 배포 경로를 제공한다.