라딕스 어텐션
LLM 추론 시 공통된 접두사의 KV 캐시를 트리 구조로 관리하여 중복 연산을 방지하는 기술이다. TTS에서 동일한 화자 샘플을 반복 사용할 때 초기 처리 속도를 획기적으로 높여준다.