토큰 수준 연속 연결
멀티모달 인코더, LLM 백본, 음성 디코더를 토큰 단위의 히든 스테이트로 직접 연결하는 구조이다. 이를 통해 모든 모달리티 간의 그래디언트 전파와 공동 최적화가 가능해지며, 정보 손실 없이 실시간 스트리밍 상호작용을 구현할 수 있다.