inference-stack
학습된 모델을 실행하여 결과를 내놓기까지 필요한 하드웨어 및 소프트웨어 인프라 전체를 의미한다. 모델 가중치가 같더라도 이 스택의 최적화 수준에 따라 속도와 정확도 등 실행 성능이 달라진다.
같은 DeepSeek-V3라도 플랫폼에 따라 성능이 31%나 차이 난다?