모델 군
여러 성능·용량 계층의 모델을 하나의 제품군으로 묶어 제공하는 방식으로, 각 모델은 처리량·응답 속도·비용 측면에서 서로 다른 트레이드오프를 가진다. 입력 토큰 처리와 출력 생성에서 우선순위를 달리하여 고성능·중간·저비용 용도로 구분되어 사용자가 요구에 맞는 모델을 선택할 수 있다. 모델 군 구성은 인프라 운영과 요금 체계 설계에 직접적인 영향을 미친다.