Thinker–Talker 아키텍처
텍스트 이해와 의사결정은 Thinker LLM이 수행하고, 음성 토큰 예측은 Talker Transformer가 담당하는 병렬적 구조로서, Thinker의 최종 레이어 은닉 상태가 Talker의 입력으로 사용된다. Talker는 텍스트와 과거 음성 토큰을 함께 받아 FSQ와 프레임 길이를 병렬로 예측하며, 선택적으로 Talker에서 생성된 음성 임베딩을 다시 Thinker에 피드백할 수 있다. 이 구조는 음성과 텍스트를 통합해 다양한 음성 작업을 하나의 모델로 처리하도록 설계되었다.