FP8 양자화
모델의 가중치를 8비트 부동소수점 형식으로 변환하여 메모리 사용량을 줄이고 추론 속도를 높이는 최적화 기법이다.
RTX 6000으로 구축한 꿈의 로컬 LLM 서버: Qwen3 120 tp/s 달성기
Meta가 공개한 RCCLX, AMD GPU 통신 속도 최대 50% 향상
Jetson에서 실시간 VLM 구동하기: Cosmos Reason 2B 배포 가이드