지식 증류
거대한 교사(Teacher) 모델의 지식을 작은 학생(Student) 모델에게 전달하여, 작은 크기로도 높은 성능을 내도록 학습시키는 기법이다. DeepSeek-R1-Distill 시리즈는 대형 추론 모델의 능력을 소형 모델에 이식한 사례이다.