Amazon SageMaker HyperPod을 통한 Hexagon의 AI 모델 생산 가속화

핵심 요약

Hexagon은 정밀 측정 기술을 통해 수집된 방대한 포인트 클라우드 데이터를 처리하기 위해 도메인 특화 AI 모델을 개발하고 있다. 기존 온프레미스 환경에서는 모델 학습에 80일이 소요되는 등 인프라 확장에 한계가 있었으나, Amazon SageMaker HyperPod으로 전환하며 이를 해결했다. SageMaker HyperPod의 자동 노드 복구 및 확장 가능한 인프라를 통해 학습 시간을 4일로 단축했으며, FSx for Lustre와 MLflow를 통합한 견고한 MLOps 스택을 구축했다. 결과적으로 Hexagon은 더 큰 배치 사이즈를 활용해 모델 정확도를 높이고 제품 출시 기간을 획기적으로 앞당길 수 있게 되었다.

배경

AWS 기초 지식, 분산 학습(Distributed Training) 개념, 포인트 클라우드 데이터 이해

대상 독자

대규모 AI 모델 학습 인프라를 구축하려는 MLOps 엔지니어 및 데이터 과학자

의미 / 영향

대규모 GPU 클러스터 관리의 복잡성을 SageMaker HyperPod과 같은 관리형 서비스로 해결함으로써, 기업들이 인프라 운영보다 모델 고도화에 집중할 수 있는 환경이 조성되고 있다. 특히 포인트 클라우드와 같은 대용량 데이터 처리 분야에서 클라우드 네이티브 인프라의 중요성이 더욱 커질 것으로 보인다.

섹션별 상세

Hexagon은 항공우주, 건설, 자율주행 등 다양한 산업에서 수집되는 3D 포인트 클라우드 데이터를 처리하기 위해 도메인 특화 AI 모델을 개발한다. 일반적인 범용 모델보다 노이즈 제거, 지형 분류, 이동 객체 감지 등 특정 작업에 최적화된 모델이 더 효과적임을 확인했다. 이러한 모델들은 도시의 디지털 트윈 제작이나 건설 현장의 실시간 의사결정을 지원하는 핵심 기술로 활용된다.

Amazon SageMaker HyperPod은 대규모 분산 학습을 위한 복원력 있는 아키텍처를 제공한다. 노드 상태를 실시간으로 점검하고 장애 발생 시 자동으로 노드를 교체하며 최신 체크포인트에서 학습을 재개하는 셀프 힐링 기능을 갖추고 있다. 또한 NVIDIA Blackwell GPU를 포함한 최신 하드웨어와 EFA(Elastic Fabric Adapter)를 지원하여 노드 간 통신 효율을 극대화한다.

Amazon S3와 FSx for Lustre를 결합하여 테라바이트급 데이터를 초당 수 기가바이트 속도로 GPU 노드에 스트리밍하는 파이프라인을 구현했다. 데이터 저장소 연동(DRA) 기능을 통해 S3 인터페이스를 유지하면서도 병렬 파일 시스템의 성능 이점을 누릴 수 있다. 또한 Managed Prometheus와 Grafana를 통해 GPU 단위의 세밀한 모니터링을 수행하며, MLflow를 통해 실험 이력과 모델 아티팩트를 관리한다.

AWS로 전환한 후 특정 네트워크 구성의 학습 시간이 기존 80일에서 4일로 약 95% 감소했다. 6개의 ml.p5.48xlarge 인스턴스를 활용하여 분산 학습 효율을 높였으며, 더 큰 배치 사이즈 적용이 가능해져 모델의 정확도 점수도 향상되었다. AWS Enterprise Support의 기술 가이드를 통해 아키텍처 최적화와 비용 효율성을 동시에 달성하며 혁신 속도를 높였다.

이미지 분석

Screenshot
모바일 매핑을 통해 수집된 도로 데이터를 AI 모델이 분류한 모습을 보여준다. 건물, 도로, 식생 등이 서로 다른 색상으로 구분되어 디지털 트윈 제작에 활용됨을 시각화한다.
도시 환경의 포인트 클라우드 데이터 세그멘테이션 결과물이다.

Screenshot
중장비와 지형이 복잡하게 얽힌 건설 현장에서 AI 모델이 객체를 정확히 식별하는 과정을 보여준다. 현장 의사결정을 지원하는 전문화된 AI 모델의 성능을 입증한다.
건설 현장의 포인트 클라우드 데이터 분석 이미지이다.

Diagram
Amazon S3, FSx for Lustre, SageMaker HyperPod 클러스터 간의 데이터 흐름과 MLflow, Grafana를 통한 모니터링 체계를 도식화한다. 전체적인 MLOps 파이프라인 구성을 한눈에 파악할 수 있다.
Hexagon의 SageMaker HyperPod 기반 학습 아키텍처 다이어그램이다.

실무 Takeaway

SageMaker HyperPod의 자동 노드 복구 기능을 활용하면 수주에서 수개월이 걸리는 장기 학습 프로젝트의 중단 위험을 최소화할 수 있다.
Amazon FSx for Lustre와 S3의 DRA 설정을 통해 대규모 데이터셋의 로딩 병목 현상을 해결하고 GPU 활용률을 극대화할 수 있다.
온프레미스 대비 최신 클라우드 가속 컴퓨팅 도입 시 학습 시간을 95% 이상 단축하여 제품 출시 주기를 획기적으로 줄일 수 있다.