capacity-planning
용량 계획
인프라 자원을 어느 정도로 확보할지 결정하는 과정으로, training의 경우 런타임·배치 크기 기반 예측이 가능하지만 inference는 요청 패턴·토큰 길이·동시성 등을 실시간으로 고려해야 다른 접근이 필요하다.
용량 계획
인프라 자원을 어느 정도로 확보할지 결정하는 과정으로, training의 경우 런타임·배치 크기 기반 예측이 가능하지만 inference는 요청 패턴·토큰 길이·동시성 등을 실시간으로 고려해야 다른 접근이 필요하다.