distillation
거대 모델(Teacher)의 지식을 작은 모델(Student)로 전이시키는 기법이다. 성능 손실을 최소화하면서 모델 크기를 줄여 자체 서버에서 저비용으로 운영할 수 있게 한다.
"인턴이 만든 장난감 같다" Qwen 팀을 뒤흔든 알리바바의 내부 폭로
8+3 스텝으로 구현하는 고품질 이미지: ZiB 모델 최적화 워크플로
코드에 Kimi 이름이 그대로? MiniMax의 소스 코드 도용 논란
중국 AI 기업이 클로드 데이터를 훔쳤다? 앤스로픽의 폭로와 메타-AMD의 100조 원대 동맹
DeepSeek가 Claude를 훔쳤다? Anthropic의 폭로와 AI 증류의 실체