스케일드 강화학습
보상 신호를 사용하여 모델의 추론 경로를 최적화하는 강화학습 기법이다. 단순히 정답을 모방하는 것을 넘어 논리적 사고 과정을 학습시킴으로써 소형 모델이 대형 모델에 필적하는 추론 성능을 갖추게 하는 데 핵심적인 역할을 한다.