양자화된 ONNX(quantized-onnx)이란 무엇인가요?

Question

Accepted Answer

AI 모델을 경량화하여 웹 브라우저나 모바일 기기에서 빠르게 실행할 수 있도록 최적화된 형식이다. 모델의 정밀도를 조정하여 연산량을 줄임으로써 서버 없이 클라이언트 측에서 효율적인 추론이 가능하게 한다.

quantized-onnx