INT8 양자화
부동소수점 가중치를 8비트 정수로 변환하여 모델 크기를 줄이고 추론 속도를 높이는 기법이다. 엣지 기기에서 효율적인 실행을 위해 필수적이지만 하드웨어 가속기 특성에 따라 정확도 손실이 발생할 수 있다.
INT8 양자화로 사전 학습 성능 격차 해소, SageBwd의 진화
RAG 성능 극대화, 퍼플렉시티의 새로운 임베딩 모델 pplx-embed 출시
같은 모델인데 정확도가 20% 차이? 스냅드래곤 칩셋별 성능 충격 결과
클라우드 테스트의 배신: 스냅드래곤 칩셋별 정확도 차이 23% 발견