W4A16 양자화
모델 가중치(Weight)는 4비트로, 연산 시 활성화 값(Activation)은 16비트로 유지하는 양자화 방식이다. 효율적인 압축과 연산 정확도 사이의 균형을 맞추는 데 사용된다.
8GB 램에서도 돌아가는 멀티모달 추론 모델 Cosmos-Reason2