본문으로 건너뛰기

fp8-distillation

FP8 증류

중급

모델의 가중치를 8비트 부동소수점 형식으로 압축하면서도 성능 저하를 최소화하는 기술이다. 메모리 사용량을 절반으로 줄여 저사양 GPU에서도 대형 모델을 실행할 수 있게 한다.