교사-학생 모델
성능이 뛰어난 대형 모델(교사)의 지식을 더 작고 효율적인 모델(학생)에게 전이시키는 학습 구조이다. 지식 증류(Knowledge Distillation) 기법의 일종으로, 소형 모델이 대형 모델의 추론 능력이나 출력 스타일을 모방하도록 학습시켜 효율성을 극대화한다.