Parakeet-TDT와 AWS Batch를 활용한 대규모 저비용 다국어 오디오 전사 시스템 구축

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

대규모 미디어 라이브러리나 고객 센터 녹취록을 처리할 때 발생하는 높은 전사 비용 문제를 해결하기 위해 NVIDIA의 Parakeet-TDT-0.6B-v3 모델을 AWS Batch에 배포하는 아키텍처를 제안한다. Parakeet-TDT는 텍스트 토큰과 지속 시간을 동시에 예측하여 무음 구간 처리를 최적화함으로써 실시간보다 수백 배 빠른 추론 속도를 제공한다. AWS S3에 오디오 업로드 시 EventBridge가 Batch 작업을 트리거하고, GPU 가속 스팟 인스턴스에서 컨테이너화된 모델이 실행되는 이벤트 기반 구조를 갖춘다. 벤치마크 결과 g6.xlarge 인스턴스에서 오디오 1분당 약 0.49초의 처리 속도를 기록했으며, 스팟 인스턴스 활용 시 오디오 1분당 비용을 약 $0.00005까지 낮출 수 있음이 확인됐다.

배경

AWS 계정 및 관리자 권한, AWS CLI 및 Docker 설치, Python 및 PyTorch 기본 지식

대상 독자

대규모 미디어 데이터를 처리해야 하는 데이터 엔지니어 및 AI 인프라 운영자

의미 / 영향

이 솔루션은 고가의 관리형 ASR 서비스 대신 오픈소스 모델과 클라우드 배치 컴퓨팅을 결합하여 비용 효율적인 대안을 제시합니다. 특히 다국어 지원과 스트리밍 추론 기법을 통해 기업들이 하드웨어 제약 없이 대규모 아카이브 데이터를 경제적으로 디지털화할 수 있게 돕습니다.

섹션별 상세

기존 관리형 ASR 서비스의 높은 비용이 대규모 데이터 처리의 병목으로 작용하고 있다. NVIDIA Parakeet-TDT 모델은 Token-and-Duration Transducer 구조를 통해 불필요한 연산을 건너뛰어 추론 효율성을 극대화한다. 이를 통해 실시간 대비 수백 배 빠른 속도로 전사가 가능하며 컴퓨팅 자원 사용 시간을 최소화한다. 결과적으로 대규모 오디오 데이터를 시간당 수 센트의 비용으로 처리할 수 있는 경제성을 확보한다.

이벤트 기반 아키텍처를 통해 오디오 업로드부터 전사 완료까지의 과정을 자동화한다. 사용자가 S3 버킷에 파일을 업로드하면 EventBridge가 이를 감지하여 AWS Batch에 작업을 제출한다. AWS Batch는 필요한 GPU 자원을 동적으로 할당하고 ECR에서 모델이 포함된 이미지를 가져와 실행한다. 작업이 없을 때는 자원을 0으로 스케일링하여 유휴 비용 발생을 원천 차단한다.

docker

FROM public.ecr.aws/amazonlinux/amazonlinux:2023
WORKDIR /app
RUN dnf update -y && dnf install -y gcc-c++ python3.12-devel tar xz && \
    ln -sf /usr/bin/python3.12 /usr/local/bin/python3 && \
    python3 -m ensurepip && python3 -m pip install --no-cache-dir --upgrade pip
COPY ./requirements.txt requirements.txt
RUN pip install -U --no-cache-dir -r requirements.txt && \
    python3 -m compileall -q /usr/local/lib/python3.12/site-packages
COPY ./parakeet_transcribe.py parakeet_transcribe.py
RUN python3 -c "from nemo.collections.asr.models import ASRModel; \
    ASRModel.from_pretrained('nvidia/parakeet-tdt-0.6b-v3')"
CMD ["python3", "parakeet_transcribe.py"]

런타임 지연을 줄이기 위해 빌드 단계에서 Parakeet-TDT 모델을 미리 캐싱하는 Dockerfile 예시

S3, EventBridge, AWS Batch, ECR을 활용한 이벤트 기반 오디오 전사 파이프라인 아키텍처 다이어그램 — Diagram오디오 파일이 S3에 업로드되면 EventBridge가 Batch 작업을 트리거하고, GPU 인스턴스가 ECR에서 이미지를 풀하여 전사를 수행한 뒤 결과를 다시 S3에 저장하는 전체 흐름을 보여줍니다. 이 구조는 작업이 없을 때 자원을 0으로 유지하는 비용 효율적인 설계를 시각화합니다.

오디오 길이에 따라 선형적으로 증가하는 VRAM 소모 문제를 해결하기 위해 로컬 어텐션과 버퍼링 스트리밍 추론 기법을 적용한다. 로컬 어텐션 모드를 사용하면 80GB VRAM 기준 최대 3시간 분량의 오디오를 한 번에 처리할 수 있다. 더 긴 오디오나 낮은 사양의 하드웨어(g6.xlarge 등)에서는 20초 단위의 겹치는 청크로 나누어 처리하는 스트리밍 방식을 사용한다. 이 방식을 통해 10시간 이상의 긴 파일도 일정한 메모리 점유율로 안정적으로 처리할 수 있다.

컨텍스트 윈도우를 포함한 오디오 청크 단위의 인코더-디코더 처리 방식 다이어그램 — Diagram긴 오디오를 일정한 크기의 청크(20초)로 나누고 좌우 컨텍스트를 포함하여 처리함으로써 VRAM 사용량을 일정하게 유지하는 버퍼링 스트리밍 추론 방식을 설명합니다. 이를 통해 하드웨어 사양에 관계없이 매우 긴 오디오 파일도 안정적으로 처리할 수 있음을 보여줍니다.

EC2 스팟 인스턴스를 활용하여 온디맨드 대비 최대 90%의 비용 절감을 달성한다. ASR 작업은 상태가 없고 재시도가 가능하여 스팟 인스턴스의 중단 특성에 잘 적응할 수 있는 워크로드이다. AWS Batch의 SPOT_PRICE_CAPACITY_OPTIMIZED 전략을 사용하여 중단 가능성이 낮고 가격이 저렴한 인스턴스 풀을 자동으로 선택한다. 실제 테스트에서 g6.xlarge 스팟 인스턴스 사용 시 전사 비용이 온디맨드 대비 절반 이하로 감소했다.

python

asr_model.change_attention_model("rel_pos_local_attn", [128, 128])
asr_model.change_subsampling_conv_chunking_factor(1)
asr_model.transcribe(["input_audio.wav"])

최대 3시간의 긴 오디오 처리를 위해 로컬 어텐션 모드를 활성화하는 코드

100개의 g6.xlarge 인스턴스에서 동시에 실행 중인 1,000개의 AWS Batch 작업 콘솔 화면 — Screenshot제안된 아키텍처가 실제 대규모 워크로드를 어떻게 병렬로 처리하는지 증명하는 스크린샷입니다. 100개의 인스턴스가 동시에 가동되어 대량의 오디오 파일을 빠르게 전사하는 확장성을 시각적으로 확인시켜 줍니다.

실무 Takeaway

NVIDIA Parakeet-TDT 모델을 AWS Batch GPU 스팟 인스턴스에 배포하면 관리형 API 대비 전사 비용을 획기적으로 낮출 수 있다.
VRAM 제약을 극복하기 위해 20초 단위의 버퍼링 스트리밍 추론을 적용하면 저사양 GPU에서도 10시간 이상의 긴 오디오를 처리 가능하다.
AWS Batch의 자동 스케일링 기능을 활용하여 작업이 있을 때만 컴퓨팅 비용을 지불하고 유휴 시에는 비용을 0으로 유지할 수 있다.

언급된 리소스

GitHubGitHub Repository - AWS Batch Audio Transcription

문서NVIDIA Parakeet-TDT-0.6B-v3 Model Card

FROM public.ecr.aws/amazonlinux/amazonlinux:2023 WORKDIR /app RUN dnf update -y && dnf install -y gcc-c++ python3.12-devel tar xz && \ ln -sf /usr/bin/python3.12 /usr/local/bin/python3 && \ python3 -m ensurepip && python3 -m pip install --no-cache-dir --upgrade pip COPY ./requirements.txt requirements.txt RUN pip install -U --no-cache-dir -r requirements.txt && \ python3 -m compileall -q /usr/local/lib/python3.12/site-packages COPY ./parakeet_transcribe.py parakeet_transcribe.py RUN python3 -c "from nemo.collections.asr.models import ASRModel; \ ASRModel.from_pretrained('nvidia/parakeet-tdt-0.6b-v3')" CMD ["python3", "parakeet_transcribe.py"]

Parakeet-TDT와 AWS Batch를 활용한 대규모 저비용 다국어 오디오 전사 시스템 구축

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

Parakeet-TDT와 AWS Batch를 활용한 대규모 저비용 다국어 오디오 전사 시스템 구축

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드