런타임 서버
Inference 엔진을 외부 요청에 노출하는 HTTP/gRPC 기반의 서버 프로세스로, 모델 입력을 수신해 배치·동시성 제어를 하고 출력 포맷팅·로깅·모니터링을 담당한다. 로컬 에이전트 스택에서는 하니스가 이 서버에 요청을 보내고 응답을 받아 후속 파일 수정·검증을 수행한다. 런타임 서버는 자원 할당 정책과 모델 버전 관리를 중앙화해 운영을 단순화한다.