사후 학습 양자화
이미 학습이 완료된 모델의 가중치와 활성값을 낮은 비트(예: 8비트 정수)로 변환하는 기법입니다. 추가적인 재학습 과정 없이 모델의 크기를 줄이고 추론 속도를 높일 수 있어 실무 배포에 매우 중요합니다.
VLA 모델 메모리 70% 절감, 성능은 원본 초과? QuantVLA의 혁신