AMD 솔루션 블루프린트 배포 및 커스터마이징 가이드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

AMD 솔루션 블루프린트는 AMD 추론 마이크로서비스(AIM)를 기반으로 구축된 즉시 배포 가능한 참조 애플리케이션이다. 헬름(Helm) 차트 형태로 제공되어 쿠버네티스 클러스터에 쉽게 설치할 수 있으며, 사용자의 요구에 맞춰 하드웨어 구성이나 모델 종류를 자유롭게 변경할 수 있다. 특히 여러 애플리케이션이 하나의 AIM LLM 인스턴스를 공유하게 설정함으로써 고가의 GPU 리소스를 효율적으로 관리하는 기법을 지원한다. 본 가이드는 AutoGen Studio와 에이전트 기반 번역 앱을 예시로 들어 실제 배포 명령어와 설정 최적화 과정을 상세히 다룬다.

배경

AMD Instinct MI300X GPU가 탑재된 쿠버네티스 클러스터 접근 권한, kubectl, Helm, k9s 도구 설치 및 설정 완료, 쿠버네티스 리소스 관리 및 Helm 차트 사용에 대한 기본 지식

대상 독자

AMD GPU 기반 쿠버네티스 클러스터에서 LLM 서비스를 배포하고 운영하려는 ML 엔지니어 및 인프라 관리자

의미 / 영향

이 가이드는 AMD 하드웨어 생태계에서 AI 애플리케이션 배포 장벽을 낮추고, 특히 고성능 Instinct GPU 리소스를 효율적으로 분배하는 실전적인 방법론을 제시한다. 이는 기업들이 고가의 GPU 자원을 낭비하지 않고도 다양한 에이전트 기반 서비스를 동시에 운영할 수 있게 함으로써 AI 도입 가속화에 기여한다.

섹션별 상세

AMD 솔루션 블루프린트는 마이크로서비스 아키텍처를 채택하여 표준 채팅 인터페이스부터 복잡한 에이전트 프레임워크까지 다양한 유스케이스를 지원한다. 모든 블루프린트는 Helm 차트로 패키징되어 있어 AMD Enterprise AI Suite 클러스터에 즉시 배포가 가능하며 아키텍처 다이어그램과 문서가 포함되어 있다. 이를 통해 개발자는 처음부터 시스템을 구축할 필요 없이 검증된 참조 모델을 기반으로 개발을 시작할 수 있다.

bash

name="autostudio"
namespace="demo"
chart="aimsb-autogenstudio"

# Helm 템플릿 생성 및 파일 저장
helm template $name oci://registry-1.docker.io/amdenterpriseai/$chart > ags-default-deployment.yaml

# 쿠버네티스 클러스터에 배포
kubectl apply -f ags-default-deployment.yaml -n $namespace

AutoGen Studio 솔루션 블루프린트를 기본 설정으로 배포하는 명령어

AutoGen Studio 에이전트 플랫폼 아키텍처 — Diagram사용자의 쿼리가 AutoGen Studio를 거쳐 검증 에이전트와 웹 서퍼 에이전트 팀으로 전달되고, 이들이 AIM LLM과 상호작용하며 도구를 사용하는 흐름을 설명한다.

한정된 GPU 리소스를 최적화하기 위해 여러 솔루션 블루프린트가 단일 AIM LLM 배포본을 공유하는 구조를 구현할 수 있다. AutoGen Studio 배포 시 생성된 Llama 3.3 70B 서비스를 에이전트 번역 앱 배포 시 llm.existingService 파라미터로 지정하면 추가 모델 로드 없이 기존 추론 엔진을 그대로 활용한다. 이 방식은 중복된 모델 배포로 인한 메모리 낭비를 방지하고 인프라 효율성을 극대화한다.

bash

name="translator"
namespace="demo"
servicename="llama33-70b-instruct-autostudio"
chart="aimsb-agentic-translation"

# 기존에 실행 중인 AIM 서비스를 사용하도록 설정
helm template $name oci://registry-1.docker.io/amdenterpriseai/$chart \
  --set llm.existingService=$servicename > at-deployment.yaml

기존에 배포된 LLM 서비스를 재사용하여 새로운 에이전트 앱을 연결하는 설정

두 개의 솔루션 블루프린트가 하나의 AIM LLM 서비스를 공유하는 구조도 — DiagramAutoGen Studio와 Agentic Translation 앱이 각각 별도의 모델을 띄우지 않고, 중앙의 Llama 3.3 70B Instruct 서비스를 공유하여 GPU 자원을 절약하는 아키텍처를 보여준다.

기본 모델인 Llama 3.3 70B 대신 Qwen3-32B와 같은 다른 모델로 교체하는 커스터마이징이 가능하다. Helm의 --set 플래그를 사용하여 이미지 경로, 정밀도(Precision), 리소스 할당량을 런타임에 수정할 수 있다. 예를 들어 모델 정밀도를 fp8에서 fp16으로 변경하거나 특정 모델에 최적화된 AIM 이미지를 지정하여 워크로드 특성에 맞는 환경을 구축한다.

에이전트 기반 번역 아키텍처 다이어그램 — Diagram실행 에이전트, 비판 에이전트, 판사 에이전트가 루프를 돌며 번역 품질을 개선하고 최종 결과를 도출하는 멀티 에이전트 워크플로우를 시각화한다.

k9s 도구에서 확인된 Qwen3-32B 배포 상태 스크린샷 — Screenshot기본 모델인 Llama 대신 Qwen3-32B 모델이 성공적으로 배포되어 실행 중인 실제 쿠버네티스 클러스터의 상태를 증명한다.

복잡한 설정 변경이 필요한 경우 YAML 형식의 오버라이드 파일을 사용하여 배포 구성을 체계적으로 관리한다. CPU 할당량, 임시 스토리지 용량, GPU 개수 등 하드웨어 자원 요청 사항을 파일에 명시하고 helm template 실행 시 -f 옵션으로 전달한다. 이 방식은 버전 관리가 용이하고 가독성이 높아 프로덕션 환경에서 설정을 추적하고 재현하는 데 유리하다.

yaml

llm:
  image: "amdenterpriseai/aim-qwen-qwen3-32b:0.10.0"
  env_vars:
    AIM_PRECISION: "fp16"
  nameOverride: qwen3-32b
  cpu_per_gpu: 8
  storage:
    ephemeral:
      quantity: 350Gi

모델을 Qwen3-32B로 변경하고 하드웨어 리소스를 커스텀 정의하는 오버라이드 파일

실무 Takeaway

GPU 메모리가 부족한 환경에서는 llm.existingService 설정을 통해 여러 에이전트 앱이 하나의 LLM 추론 서비스를 공유하게 하여 인프라 비용을 절감해야 한다.
모델 교체 시에는 AIM 카탈로그에서 정확한 이미지 태그를 확인하고, 모델의 특성에 맞춰 AIM_PRECISION(fp8/fp16 등) 값을 반드시 일치시켜야 정상적인 추론이 가능하다.
운영 환경에서는 --set 플래그 대신 blueprint-override.yaml 파일을 작성하여 하드웨어 리소스(CPU, Storage) 할당량을 명시적으로 관리함으로써 배포의 일관성을 유지해야 한다.

언급된 리소스

문서AMD Enterprise AI Suite Documentation

문서Solution Blueprint Catalog