AWS 기반 파운데이션 모델 학습 및 추론을 위한 빌딩 블록

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

파운데이션 모델의 성능 향상이 사전 학습뿐만 아니라 사후 학습과 테스트 시간 컴퓨팅(Test-time compute)으로 확장됨에 따라, 이를 뒷받침할 통합 인프라의 중요성이 커지고 있습니다. 본 아키텍처는 가속 컴퓨팅, 고대역폭 네트워크, 분산 스토리지로 구성된 하드웨어 계층 위에 Slurm 및 Kubernetes 기반의 리소스 오케스트레이션 계층을 결합합니다. 그 위에서 PyTorch, NCCL, vLLM 등 오픈소스 ML 소프트웨어 스택이 작동하며, Prometheus와 Grafana를 통한 관측성 계층이 전체 시스템의 건전성을 모니터링합니다. 특히 NVIDIA Blackwell B200 기반 P6 인스턴스와 EFAv4 통신 기술은 대규모 분산 환경에서 발생하는 병목 현상을 해결하고 모델 수명 주기 전반의 효율성을 극대화합니다.

배경

분산 학습 기법 (DDP, FSDP, 3D Parallelism)에 대한 기본 이해, AWS EC2 인스턴스 및 네트워킹(VPC, EFA) 기초 지식, Docker 및 Kubernetes/Slurm 오케스트레이션 개념

대상 독자

AWS 인프라에서 대규모 파운데이션 모델을 학습하거나 고성능 추론 시스템을 구축하려는 ML 엔지니어 및 아키텍트

의미 / 영향

이 아키텍처는 모델 성능 향상의 축이 다변화되는 트렌드에 맞춰 하드웨어와 소프트웨어 스택을 통합적으로 설계하는 표준을 제시합니다. 특히 Blackwell 아키텍처와 개선된 EFA 통신 기술의 결합은 추론 비용 절감과 학습 시간 단축을 동시에 달성하여 기업들의 생성형 AI 도입 속도를 가속화할 것입니다.

섹션별 상세

스케일링 법칙이 사전 학습을 넘어 사후 학습(SFT/RL)과 테스트 시간 컴퓨팅으로 확장되면서 인프라 요구사항이 수렴하고 있습니다. 기존에는 데이터셋과 파라미터 크기 증대에 집중했으나, 이제는 추론 시 '긴 생각'을 위한 연산량 증대와 정교한 사후 학습을 위해 밀접하게 결합된 가속기 클러스터가 필수적입니다. NVIDIA의 3대 스케일링 법칙 프레임워크에 따라 사전 학습, 사후 학습, 추론 단계 모두에서 고대역폭 네트워크와 분산 저장소가 공통적으로 요구됩니다.

사전 학습, 사후 학습, 테스트 시간 컴퓨팅이라는 세 가지 스케일링 법칙을 보여주는 그래프 — Chart컴퓨팅 자원 투입에 따른 지능의 향상 곡선이 세 갈래로 나뉘는 것을 시각화합니다. 모델 성능 향상이 단순히 사전 학습 데이터 증대뿐만 아니라 추론 시 연산량(Test-time scaling)을 통해서도 이루어질 수 있음을 강조합니다.

AWS는 NVIDIA H100, H200 및 최신 Blackwell B200/B300 GPU를 탑재한 EC2 인스턴스를 통해 강력한 컴퓨팅 기반을 제공합니다. P6 인스턴스 제품군은 B200 GPU 8개를 탑재하여 FP8 기준 4.5 PFLOPS의 성능과 180GB HBM3e 메모리를 제공하며, 인스턴스당 최대 400-800 GB/s의 EFA 대역폭을 지원합니다. 이러한 하드웨어 사양은 모델 규모가 커짐에 따라 발생하는 연산 및 메모리 대역폭 병목 현상을 직접적으로 해결합니다.

네트워크 계층에서는 EFA(Elastic Fabric Adapter)와 NVLink가 각각 노드 간 및 노드 내 통신을 담당하여 분산 학습의 효율을 높입니다. EFAv4는 이전 세대 대비 집합 통신 성능을 18% 개선했으며, SRD 프로토콜을 통해 OS 바이패스 RDMA 기능을 제공하여 지연 시간을 최소화합니다. 특히 GB200 NVL72 기반의 UltraServer는 NVLink 도메인을 72개 GPU까지 확장하여 성능에 민감한 통신이 패브릭 외부로 나가는 빈도를 줄입니다.

2세대 EC2 UltraClusters의 아키텍처 구조도 — Diagram2만 개 이상의 H100 GPU가 페타비트급 비차단 네트워크 인프라로 연결된 구조를 보여줍니다. FSx for Lustre 저장소와 EFA 네트워크가 어떻게 결합되어 대규모 클러스터를 형성하는지 설명합니다.

리소스 오케스트레이션은 HPC 중심의 Slurm과 클라우드 네이티브인 Kubernetes(EKS) 두 가지 경로로 최적화되어 제공됩니다. Slurm은 다중 노드 작업을 원자적으로 할당하는 갱 스케줄링(Gang Scheduling)에 강점이 있으며, Kubernetes는 Kueue나 Volcano 같은 프로젝트를 통해 배치 큐잉과 토폴로지 인식 기능을 보완합니다. Amazon SageMaker HyperPod는 두 방식 모두를 지원하며 자동 노드 복구 및 체크포인트 없는 학습(Checkpointless training) 기능을 통해 대규모 클러스터 운영 부담을 낮춥니다.

ML 소프트웨어 스택은 커널 드라이버부터 PyTorch 프레임워크, vLLM/SGLang 같은 추론 엔진까지 5개 계층으로 구성됩니다. NCCL 라이브러리는 aws-ofi-nccl 플러그인을 통해 EFA의 성능을 활용하며, MoE 모델에서 중요한 all-to-all 통신을 최적화합니다. 추론 단계에서는 PagedAttention을 사용하는 vLLM과 접두사 재사용을 지원하는 SGLang이 결합되어 처리량과 지연 시간을 동시에 개선합니다.

커널 드라이버부터 프레임워크까지 구성된 ML 소프트웨어 스택 다이어그램 — Diagram하드웨어 계층 위에 드라이버, CUDA, NCCL, PyTorch, 그리고 최상단의 분산 학습/추론 프레임워크가 어떻게 쌓이는지 보여줍니다. 각 계층 간의 의존성과 성능 최적화 지점을 이해하는 데 도움을 줍니다.

대규모 시스템의 안정성을 위해 Prometheus와 Grafana 기반의 통합 관측성 계층이 필수적으로 운영됩니다. DCGM-Exporter를 통해 GPU의 SM 활성도, 메모리 사용량, XID 오류 등을 실시간으로 수집하여 하드웨어 결함을 조기에 감지합니다. 특히 XID 63(행 재매핑 실패)이나 XID 94 같은 치명적 오류를 모니터링하여 장애가 발생한 노드를 즉시 교체함으로써 학습 중단 시간을 최소화합니다.

실무 Takeaway

대규모 MoE 모델 학습 시 NVLink 도메인이 큰 UltraServer(최대 72 GPU)를 활용하면 all-to-all 통신 병목을 줄여 학습 속도를 높일 수 있다.
Kubernetes 환경에서 분산 학습을 수행할 때는 Kueue와 Karpenter를 결합하여 작업 단위의 원자적 할당과 적시 노드 프로비저닝을 구현해야 한다.
학습 효율을 높이기 위해 단순 GPU 사용률 대신 DCGM_FI_PROF_SM_ACTIVE 지표를 모니터링하여 실제 연산 자원이 얼마나 유효하게 사용되는지 파악해야 한다.

언급된 리소스

문서P6 instance family page

문서Amazon SageMaker HyperPod

GitHubveRL GitHub Repository

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

배경

분산 학습 기법 (DDP, FSDP, 3D Parallelism)에 대한 기본 이해, AWS EC2 인스턴스 및 네트워킹(VPC, EFA) 기초 지식, Docker 및 Kubernetes/Slurm 오케스트레이션 개념

대상 독자

AWS 인프라에서 대규모 파운데이션 모델을 학습하거나 고성능 추론 시스템을 구축하려는 ML 엔지니어 및 아키텍트

의미 / 영향

섹션별 상세

실무 Takeaway

대규모 MoE 모델 학습 시 NVLink 도메인이 큰 UltraServer(최대 72 GPU)를 활용하면 all-to-all 통신 병목을 줄여 학습 속도를 높일 수 있다.
Kubernetes 환경에서 분산 학습을 수행할 때는 Kueue와 Karpenter를 결합하여 작업 단위의 원자적 할당과 적시 노드 프로비저닝을 구현해야 한다.
학습 효율을 높이기 위해 단순 GPU 사용률 대신 DCGM_FI_PROF_SM_ACTIVE 지표를 모니터링하여 실제 연산 자원이 얼마나 유효하게 사용되는지 파악해야 한다.

언급된 리소스

문서P6 instance family page

문서Amazon SageMaker HyperPod

GitHubveRL GitHub Repository

AWS 기반 파운데이션 모델 학습 및 추론을 위한 빌딩 블록

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

AWS 기반 파운데이션 모델 학습 및 추론을 위한 빌딩 블록

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드