AWS Inferentia2를 활용한 반려동물 행동 감지용 Vision-Language 모델의 비용 효율적 배포

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

대규모 실시간 반려동물 행동 감지 서비스를 운영하는 Tomofun은 기존 GPU 기반 추론의 높은 비용 문제를 해결하기 위해 AWS Inferentia2 전용 칩을 도입했다. BLIP 모델의 핵심 로직을 수정하지 않고 Neuron SDK와 호환되는 경량 래퍼 클래스를 사용하여 이미지 인코더, 텍스트 인코더 및 디코더를 독립적으로 컴파일했다. 스트레스 테스트 결과 Inf2.xlarge 인스턴스에서 기존 GPU 온디맨드 대비 83%의 비용 절감 효과를 거두면서도 실시간 알림에 필요한 낮은 지연 시간과 높은 처리량을 확보했다. 이 사례는 대규모 시각-언어 모델(VLM) 서비스에서 전용 가속기를 통해 성능 타협 없이 운영 효율성을 극대화할 수 있음을 입증했다.

배경

PyTorch 프레임워크에 대한 이해, AWS EC2 및 Auto Scaling 아키텍처 지식, 기본적인 딥러닝 모델 컴파일 및 추론 개념

대상 독자

대규모 실시간 AI 추론 서비스를 운영하며 비용 최적화를 고민하는 ML 엔지니어 및 클라우드 아키텍트

의미 / 영향

이 사례는 고비용 GPU에 의존하던 시각-언어 모델(VLM) 추론을 전용 가속기로 성공적으로 이전할 수 있음을 보여줍니다. 특히 모델 코드 수정 없이 래퍼만으로 최적화가 가능하다는 점은 기업들이 성능 저하 없이 운영 비용을 획기적으로 낮출 수 있는 실질적인 경로를 제시합니다.

섹션별 상세

기존 GPU 기반 인스턴스는 수십만 대의 기기에서 발생하는 실시간 비디오 스트림을 24시간 처리하기에 비용 부담이 컸다. Tomofun은 모델의 정확도와 처리량을 유지하면서도 운영 비용을 낮추기 위해 AWS의 AI 전용 칩인 Inferentia2 기반 Inf2 인스턴스로의 전환을 결정했다. 이를 통해 대규모 실시간 모니터링 환경에서의 경제성을 확보하고자 했다. 전용 하드웨어 도입은 항상 켜져 있는(always-on) 추론 워크로드의 비용 구조를 근본적으로 개선하는 계기가 됐다.

Tomofun의 실시간 반려동물 행동 감지 시스템 아키텍처 다이어그램 — Diagram웹캠에서 유입된 데이터가 CloudFront와 ELB를 거쳐 API 서버와 Inf2 기반 추론 서버로 전달되는 흐름을 보여줍니다. CloudWatch를 통한 메트릭 수집과 Auto Scaling 그룹이 연동되어 실시간 수요에 따라 인스턴스 풀을 관리하는 구조를 설명합니다.

BLIP 모델의 복잡한 아키텍처를 유지하면서 Inferentia2와 호환시키기 위해 모델을 이미지 인코더, 텍스트 인코더, 텍스트 디코더의 세 가지 모듈로 분리했다. 각 컴파일 단계에서 torch_neuronx.trace()를 사용하여 원본 PyTorch 로직을 수정하지 않고 Neuron 최적화 TorchScript 아티팩트로 변환했다. 이 모듈식 접근 방식은 모델의 사전 학습된 로직을 보존하면서도 전용 가속기에서 실행 가능한 형태로 최적화할 수 있게 했다. 결과적으로 개발 공수를 최소화하면서 하드웨어 성능을 극대화했다.

BLIP 모델의 내부 아키텍처 구성도 — Diagram이미지 인코더, 텍스트 인코더, 텍스트 디코더가 어떻게 상호작용하여 시각-언어 이해를 수행하는지 상세히 나타냅니다. 각 모듈을 독립적으로 분리하여 Inferentia2용으로 컴파일했다는 본문의 설명을 시각적으로 뒷받침합니다.

Neuron SDK의 입출력 인터페이스 요구사항을 충족하기 위해 원본 모델을 감싸는 경량 래퍼(Wrapper) 클래스를 구현했다. 래퍼 클래스는 추론 시 텐서의 형태를 조정하고 입출력을 포맷팅하는 어댑터 역할을 수행하며 배포 단계에서만 사용된다. 컴파일 시에는 원본 서브모듈을 직접 최적화하고 실행 시에는 래퍼를 통해 기존 추론 파이프라인에 매끄럽게 통합했다. 이러한 설계는 상위 API나 하위 알림 로직의 변경 없이 백엔드만 GPU에서 Inferentia2로 실시간 전환할 수 있는 유연성을 제공했다.

실제 Furbo 카메라 워크로드를 모방한 스트레스 테스트를 통해 서버 스레드와 클라이언트 동시성 간의 최적 균형점을 도출했다. 테스트 결과 Inf2.xlarge 인스턴스는 수십만 대의 장치에서 유입되는 동시 요청을 낮은 지연 시간으로 처리할 수 있음을 확인했다. 특히 GPU 온디맨드 요금제와 비교했을 때 동일 성능 기준 83%의 비용 절감을 달성했다. 이는 대규모 VLM 배포 시 적절한 부하 테스트를 통한 동시성 제어가 비용 대비 성능 최적화의 핵심임을 시사한다.

서버 스레드 및 클라이언트 스레드 조합에 따른 추론 지연 시간 벤치마크 차트 — Chart서버와 클라이언트의 동시성 수준에 따른 평균 추론 시간(ms) 변화를 보여줍니다. 서버 스레드가 부족할 때 클라이언트 요청이 늘어나면 지연 시간이 급증하며, 적절한 스레드 할당이 성능 유지에 필수적임을 입증하는 데이터입니다.

실무 Takeaway

대규모 실시간 AI 서비스에서 GPU 대신 AWS Inferentia2 전용 가속기를 사용하면 동일 성능 대비 최대 83%의 비용 절감이 가능하다.
Neuron SDK의 trace API와 경량 래퍼 클래스를 활용하면 기존 PyTorch 모델 로직을 수정하지 않고도 전용 하드웨어용으로 신속하게 이식할 수 있다.
성능 최적화를 위해 서버 스레드와 클라이언트 동시성 조합에 따른 지연 시간 변화를 벤치마킹하여 프로덕션 환경의 처리량 한계를 설정해야 한다.

언급된 리소스

논문BLIP: Bootstrapping Language-Image Pre-training 논문

API DocsAWS Neuron Documentation