도메인 적응을 위한 Amazon EC2 기반 NVIDIA Nemotron Speech ASR 파인튜닝

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

의료 및 고객 서비스와 같은 특정 도메인에서 범용 ASR 모델의 정확도를 높이기 위해 NVIDIA Nemotron Speech 모델인 Parakeet-TDT-0.6b-V2를 파인튜닝하는 방법을 다룬다. LLM과 TTS를 결합한 합성 데이터 생성 파이프라인을 통해 의료 전문 용어와 다양한 소음 환경을 학습 데이터로 구축했다. Amazon EC2 P4d 인스턴스와 DeepSpeed를 사용하여 64개의 GPU에서 분산 학습을 수행하며, 최종 모델은 Amazon EKS와 FSx for Lustre를 통해 고성능 추론 환경에 배포된다. 이 아키텍처는 데이터 합성부터 분산 학습, 탄력적 추론 및 관측성 확보까지의 전 과정을 포괄한다.

배경

NVIDIA NeMo 프레임워크에 대한 기본 지식, PyTorch 기반 분산 학습 및 DeepSpeed 개념, Amazon EKS 및 Kubernetes 운영 경험, Docker 및 컨테이너화 기술

대상 독자

도메인 특화 ASR 시스템을 구축하려는 ML 엔지니어 및 클라우드 아키텍트

의미 / 영향

범용 모델이 해결하기 어려운 전문 도메인(의료, 법률 등)의 음성 인식 문제를 합성 데이터와 클라우드 기반 분산 학습으로 해결할 수 있음을 입증했다. 특히 오픈소스 프레임워크(NeMo, DeepSpeed)와 관리형 서비스(EKS, FSx)의 결합은 기업이 독자적인 고성능 AI 서비스를 구축하는 표준 아키텍처가 될 것이다.

섹션별 상세

의료 도메인 특화 데이터를 확보하기 위해 LLM으로 의학 용어가 포함된 스크립트를 생성하고 이를 신경망 TTS로 음성 변환하는 합성 데이터 파이프라인을 구축했다. 병원 환경 소음(알람, 배경 대화)을 10~25dB SNR로 합성하여 실제 진료 환경에 대한 모델의 내성을 강화했다.

모델 학습 및 추론을 위한 전체 AWS 아키텍처 다이어그램 — DiagramS3에서 합성 데이터를 가져와 EC2 P4d 인스턴스에서 NeMo와 DeepSpeed로 학습하고, 결과물을 FSx for Lustre를 거쳐 EKS 추론 클러스터로 전달하는 전체 파이프라인을 보여준다. 학습부와 추론부가 분리되어 있으며 각각의 핵심 도구들이 명시되어 있다.

NVIDIA Parakeet-TDT-0.6b-V2 모델은 6억 개의 파라미터를 가진 FastConformer 아키텍처 기반으로, Token-and-Duration Transducer(TDT) 디코더를 사용해 토큰 예측과 지속 시간을 동시에 처리한다. 이 구조는 문장 부호 자동 삽입, 단어 단위 타임스탬프 예측, 최대 24분 길이의 오디오 처리를 지원하며 6.05%의 낮은 WER(Word Error Rate)을 기록한다.

Amazon EC2 p4d.24xlarge 인스턴스 8대(총 64개의 NVIDIA A100 GPU)를 활용한 대규모 분산 학습 환경을 구성했다. DeepSpeed Stage 2 최적화 기법을 적용하여 옵티마이저 상태를 CPU로 오프로딩하고 활성화 파티셔닝을 통해 GPU 메모리 효율을 극대화함으로써 대규모 데이터셋에 대한 학습 시간을 단축했다.

추론 환경은 Amazon EKS 클러스터 상에서 Triton Inference Server와 FastAPI를 결합하여 OpenAI 호환 API 형태로 노출했다. Amazon FSx for Lustre를 사용하여 모델 가중치를 컨테이너 시작 시 동적으로 로드함으로써 이미지 크기를 줄이고 배포 민첩성을 확보했다.

Amazon EKS 기반의 모델 추론 아키텍처 상세도 — DiagramEKS 클러스터 내에서 LiteLLM(AI Gateway), Langfuse(관측성), Triton Inference Server가 어떻게 상호작용하는지 설명한다. Karpenter와 KEDA를 통한 자동 확장 메커니즘과 FSx for Lustre를 통한 모델 로딩 구조가 핵심이다.

Karpenter를 통한 노드 오토스케일링과 KEDA를 이용한 커스텀 메트릭(평균 처리 시간) 기반 포드 스케일링을 구현하여 트래픽 변화에 탄력적으로 대응한다. LiteLLM 기반의 AI Gateway와 Langfuse를 통합하여 API 보안, 라우팅 및 TTFT(Time to First Token)와 같은 성능 지표를 실시간으로 모니터링한다.

Langfuse를 활용한 추론 트레이싱 및 메트릭 화면 — Screenshot실제 오디오 전사 요청에 대한 입력, 출력 결과와 함께 지연 시간(Latency), TTFT 등의 성능 지표가 캡처된 대시보드이다. 배포된 모델의 실시간 모니터링 능력을 입증한다.

실무 Takeaway

의료 전문 용어와 같이 데이터가 부족한 도메인은 LLM과 TTS를 활용한 합성 데이터 생성 파이프라인을 통해 개인정보 노출 없이 학습 데이터를 확장할 수 있다.
DeepSpeed Stage 2와 EC2 P4d 인스턴스를 조합하면 600M 규모의 ASR 모델을 64개 GPU에서 효율적으로 분산 학습하여 실험 주기를 며칠에서 몇 시간 단위로 단축 가능하다.
EKS 배포 시 FSx for Lustre를 공유 스토리지로 활용하면 대용량 모델 가중치 로딩 속도를 최적화하고 컨테이너 관리 효율성을 높일 수 있다.

언급된 리소스

GitHubNVIDIA NeMo ASR Fine-tuning GitHub Repository

문서NVIDIA Parakeet-TDT-0.6b-V2 on Hugging Face