토큰 재사용
이미 생성되었거나 입력된 토큰 정보를 다시 계산하지 않고 활용하여 연산 효율을 높이는 방식이다.
코드 한 줄 바꿨을 뿐인데 LLM 속도가 2배? 세레브라스의 혁신적 추론 기법