강화학습 증류
대형 모델의 추론 능력을 소형 모델에 전이하기 위해 강화학습 기법을 사용하는 학습 방식이다. 본문에서는 DeepSeek-R1이 동일 아키텍처의 Qwen보다 더 깊은 논리 체인을 유지할 수 있게 된 핵심 원인으로 지목됐다.