레이어 스킵
모델의 전체 레이어 중 일부만 사용하여 초안을 생성하고 전체 레이어로 검증하는 자가 추론 최적화 기법이다. 별도의 작은 모델을 준비할 필요 없이 하나의 모델 내에서 효율적인 추측 디코딩을 구현한다. 모델 전환에 따른 오버헤드를 줄여 추론 효율을 극대화한다.