접미사 디코딩
에이전트 워크로드처럼 반복되는 텍스트 패턴이 많은 경우, 이전 출력 결과를 트리 구조로 캐싱하여 미래의 토큰 생성을 예측하는 기술이다. 단순한 모델 기반 예측보다 긴 시퀀스를 정확하게 맞출 수 있어 에이전트 시스템의 성능을 극대화한다.