lossy-speculative-decoding
타겟 모델의 출력과 완벽하게 일치하지 않더라도 최종 품질에 영향이 없다면 드래프트 토큰을 수용하는 방식이다. 약간의 정확도를 희생하고 더 높은 속도 향상을 얻는다.
LLM 추론 속도 2배 향상, 사소한 오답은 넘기는 AutoJudge 기술