Amazon SageMaker AI 2025 연말 결산 Part 2: 관측성 강화 및 모델 커스터마이징·호스팅 신기능

핵심 요약

Amazon SageMaker AI는 2025년 생성형 AI 모델의 학습, 튜닝 및 호스팅을 최적화하기 위한 대규모 업데이트를 단행했다. 이번 파트 2에서는 인스턴스 및 컨테이너 단위의 세밀한 관측성 강화, 인프라 관리 부담을 없앤 서버리스 모델 커스터마이징, 그리고 실시간 음성 에이전트 구현을 위한 양방향 스트리밍 기술을 중점적으로 다룬다. 이러한 기능들은 기업이 대규모 AI 모델을 프로덕션 환경에 배포할 때 겪는 비용, 복잡성, 보안 문제를 해결하는 데 초점을 맞추고 있다.

배경

AWS SageMaker 기본 지식, CloudWatch 모니터링 개념, 파인튜닝(Fine-tuning) 및 추론 엔드포인트에 대한 이해

대상 독자

AWS 기반 AI/ML 서비스 운영자 및 LLM 애플리케이션 개발자

의미 / 영향

이번 업데이트는 기업들이 AI 모델을 실험 단계에서 실제 프로덕션으로 전환할 때 마주하는 운영 복잡도와 비용 장벽을 크게 낮춘다. 특히 서버리스 튜닝과 양방향 스트리밍은 중소규모 팀도 고성능 맞춤형 AI 서비스를 구축할 수 있는 기반을 제공한다.

섹션별 상세

세밀한 관측성을 위한 강화된 메트릭 도입으로 기존 엔드포인트 수준의 집계에서 벗어나 인스턴스 및 컨테이너 단위로 CPU, 메모리, GPU 사용량과 호출 성능을 추적할 수 있게 됐다. MetricsConfig 파라미터를 통해 데이터 발행 빈도를 설정할 수 있으며, 이를 통해 트래픽 불균형이나 리소스 비효율성을 정확히 진단하고 CloudWatch 알람과 연동해 자동 대응이 가능하다.

안전한 배포를 위한 추론 컴포넌트 롤링 업데이트 기능은 대규모 언어 모델(LLM) 배포 시 중복 인프라를 구성해야 했던 기존 블루/그린 방식의 부담을 줄여준다. 인프라를 동적으로 확장하며 새 버전을 배치 단위로 적용하고, 이슈 발생 시 CloudWatch 알람을 통해 자동으로 롤백함으로써 가동 중단 없는 안전한 업데이트를 지원한다.

인프라 관리 없는 서버리스 모델 커스터마이징 기능은 데이터 크기와 모델 종류에 따라 컴퓨팅 자원을 자동으로 할당하여 인프라 관리의 복잡성을 제거했다. SFT(Supervised Fine-Tuning)뿐만 아니라 RLVR, RLAIF와 같은 고급 강화학습 기법을 지원하며, MLflow와의 통합으로 실험 이력을 자동으로 기록하고 관리할 수 있다.

실시간 상호작용을 위한 양방향 스트리밍은 HTTP/2 및 WebSocket 프로토콜을 활용해 데이터가 양방향으로 동시 흐르는 영구 연결 기능을 제공한다. 이는 기존의 단방향 요청-응답 구조를 넘어 실시간 음성 에이전트나 라이브 번역 서비스에서 문맥을 유지하며 즉각적인 반응을 제공할 수 있게 하며, VPC 내 보안을 유지하면서도 통신 오버헤드를 줄여준다.

엔터프라이즈 보안 및 연결성 확장을 위해 모든 리전에서 AWS PrivateLink 지원을 확대하고 IPv6 호환성을 확보하여 공용 인터넷을 거치지 않는 안전한 데이터 전송 환경을 구축했다. IPv4와 IPv6를 동시에 지원하는 듀얼 스택 기능을 통해 기존 네트워크 아키텍처와의 호환성을 유지하면서도 현대적인 IP 주소 체계로의 전환을 용이하게 했다.

이미지 분석

Screenshot
Amazon Nova, Meta Llama 3.1, Qwen 등 다양한 베이스 모델을 선택하고 UI, AI 에이전트, 또는 코드를 통해 커스터마이징을 시작할 수 있는 통합 인터페이스를 보여준다. 서버리스 모델 커스터마이징 기능이 실제 사용자 환경에서 어떻게 제공되는지 시각적으로 확인 가능하다.
SageMaker Studio의 모델 커스터마이징 UI 화면

</> 코드 예제 포함

실무 Takeaway

MetricsConfig를 활용해 GPU 사용량과 지연 시간을 컨테이너 단위로 모니터링하여 리소스 할당을 최적화하고 운영 비용을 절감할 수 있다.
서버리스 커스터마이징 기능을 사용하면 인프라 설정 없이 Amazon Nova, Llama, Qwen 등 최신 모델을 SFT나 강화학습으로 빠르게 튜닝할 수 있다.
실시간 음성 서비스 구축 시 WebSocket 기반의 양방향 스트리밍을 적용하여 지연 시간을 최소화하고 대화의 연속성을 확보할 수 있다.