핵심 요약
AMD 솔루션 블루프린트는 AMD 추론 마이크로서비스(AIM)를 기반으로 구축된 즉시 배포 가능한 참조 애플리케이션이다. 헬름(Helm) 차트 형태로 제공되어 쿠버네티스 클러스터에 쉽게 설치할 수 있으며, 사용자의 요구에 맞춰 하드웨어 구성이나 모델 종류를 자유롭게 변경할 수 있다. 특히 여러 애플리케이션이 하나의 AIM LLM 인스턴스를 공유하게 설정함으로써 고가의 GPU 리소스를 효율적으로 관리하는 기법을 지원한다. 본 가이드는 AutoGen Studio와 에이전트 기반 번역 앱을 예시로 들어 실제 배포 명령어와 설정 최적화 과정을 상세히 다룬다.
배경
AMD Instinct MI300X GPU가 탑재된 쿠버네티스 클러스터 접근 권한, kubectl, Helm, k9s 도구 설치 및 설정 완료, 쿠버네티스 리소스 관리 및 Helm 차트 사용에 대한 기본 지식
대상 독자
AMD GPU 기반 쿠버네티스 클러스터에서 LLM 서비스를 배포하고 운영하려는 ML 엔지니어 및 인프라 관리자
의미 / 영향
이 가이드는 AMD 하드웨어 생태계에서 AI 애플리케이션 배포 장벽을 낮추고, 특히 고성능 Instinct GPU 리소스를 효율적으로 분배하는 실전적인 방법론을 제시한다. 이는 기업들이 고가의 GPU 자원을 낭비하지 않고도 다양한 에이전트 기반 서비스를 동시에 운영할 수 있게 함으로써 AI 도입 가속화에 기여한다.
섹션별 상세
name="autostudio"
namespace="demo"
chart="aimsb-autogenstudio"
# Helm 템플릿 생성 및 파일 저장
helm template $name oci://registry-1.docker.io/amdenterpriseai/$chart > ags-default-deployment.yaml
# 쿠버네티스 클러스터에 배포
kubectl apply -f ags-default-deployment.yaml -n $namespaceAutoGen Studio 솔루션 블루프린트를 기본 설정으로 배포하는 명령어

name="translator"
namespace="demo"
servicename="llama33-70b-instruct-autostudio"
chart="aimsb-agentic-translation"
# 기존에 실행 중인 AIM 서비스를 사용하도록 설정
helm template $name oci://registry-1.docker.io/amdenterpriseai/$chart \
--set llm.existingService=$servicename > at-deployment.yaml기존에 배포된 LLM 서비스를 재사용하여 새로운 에이전트 앱을 연결하는 설정



llm:
image: "amdenterpriseai/aim-qwen-qwen3-32b:0.10.0"
env_vars:
AIM_PRECISION: "fp16"
nameOverride: qwen3-32b
cpu_per_gpu: 8
storage:
ephemeral:
quantity: 350Gi모델을 Qwen3-32B로 변경하고 하드웨어 리소스를 커스텀 정의하는 오버라이드 파일
실무 Takeaway
- GPU 메모리가 부족한 환경에서는 llm.existingService 설정을 통해 여러 에이전트 앱이 하나의 LLM 추론 서비스를 공유하게 하여 인프라 비용을 절감해야 한다.
- 모델 교체 시에는 AIM 카탈로그에서 정확한 이미지 태그를 확인하고, 모델의 특성에 맞춰 AIM_PRECISION(fp8/fp16 등) 값을 반드시 일치시켜야 정상적인 추론이 가능하다.
- 운영 환경에서는 --set 플래그 대신 blueprint-override.yaml 파일을 작성하여 하드웨어 리소스(CPU, Storage) 할당량을 명시적으로 관리함으로써 배포의 일관성을 유지해야 한다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.