ExecuTorch와 Arm을 활용한 엣지 AI 배포 가이드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

ExecuTorch는 PyTorch 생태계를 확장하여 자원이 제한된 엣지 디바이스에서 로컬 AI 추론을 가능하게 하는 경량 런타임이다. 이 기술은 모델을 .pte 형식의 정적 그래프로 내보내 Python 의존성을 제거하고 메모리 사용량을 최소화한다. Arm은 이를 지원하기 위해 Raspberry Pi의 CPU 추론부터 Ethos-U NPU 가속까지 다루는 Jupyter Lab 시리즈를 공개했다. 실제 테스트 결과 ExecuTorch와 XNNPACK 백엔드를 조합하면 기존 PyTorch 대비 지연 시간이 대폭 감소하며, NPU 활용 시 전력 효율과 성능을 극대화할 수 있음이 확인됐다.

배경

PyTorch 기본 지식, 임베디드 시스템 및 CPU/NPU 아키텍처에 대한 이해, Python 및 Jupyter Notebook 사용 능력

대상 독자

엣지 디바이스 및 임베딩 시스템에서 PyTorch 모델을 최적화하여 배포하려는 ML 엔지니어

의미 / 영향

ExecuTorch는 클라우드 중심의 AI 생태계를 저전력 엣지 기기로 확장하여 진정한 온디바이스 AI 시대를 가속화한다. 특히 Arm 하드웨어와의 긴밀한 통합을 통해 개발자는 익숙한 PyTorch 환경을 유지하면서도 하드웨어 성능을 한계까지 끌어낼 수 있게 된다.

섹션별 상세

임베딩 시스템의 제약 사항을 해결하기 위해 ExecuTorch는 PyTorch 모델을 최소한의 .pte 아티팩트로 변환한다. 이 과정에서 Python 런타임이 제거되고 정적 계산 그래프가 생성되어 실행 예측 가능성이 높아진다. 결과적으로 메모리와 연산 능력이 부족한 Cortex-M 같은 마이크로컨트롤러에서도 모델 실행이 가능해진다. 이는 클라우드 의존성을 줄이고 개인정보 보호와 실시간성을 강화하는 핵심 요소이다.

Arm CPU에서 성능을 극대화하기 위해 ExecuTorch는 XNNPACK 백엔드와 KleidiAI 마이크로커널을 활용한다. XNNPACK은 컨볼루션 및 행렬 곱셈 연산을 Neon과 같은 하드웨어 기능에 맞춰 최적화한다. Raspberry Pi 5에서 OPT-125M 모델을 테스트한 결과, PyTorch 기본 모드보다 ExecuTorch 사용 시 지연 시간이 현저히 낮아졌다. 다만 고성능 추론 지속 시 발생하는 발열로 인한 클럭 저하 등 하드웨어 특성을 고려한 설계가 필요하다.

Raspberry Pi 5에서 PyTorch eager 모드의 추론 시간 분포와 실행 횟수별 지연 시간 그래프 — ChartPyTorch 기본 실행 시 평균 지연 시간이 약 1962ms임을 보여준다. 실행 횟수가 늘어나도 지연 시간이 비교적 일정하게 유지되는 패턴을 확인할 수 있다.

ExecuTorch와 XNNPACK을 사용했을 때의 추론 시간 분포 및 실행 횟수별 지연 시간 그래프 — Chart평균 지연 시간이 약 525ms로 PyTorch eager 모드 대비 약 4배 가까이 성능이 향상됨을 증명한다. 다만 시간이 지남에 따라 발열로 인해 지연 시간이 점진적으로 증가하는 경향을 시각적으로 보여준다.

하드웨어 가속을 위해 Ethos-U NPU를 사용할 때는 그래프 분할과 양자화 과정이 필수적이다. ExecuTorch는 전체 모델 그래프를 분석하여 NPU가 지원하는 부분은 가속기로, 나머지는 CPU로 할당하는 이기종 실행 구조를 가진다. 이를 위해 EthosUQuantizer를 통한 INT8 양자화와 TOSA 중간 표현으로의 변환 단계가 수행된다. 효율적인 배포를 위해서는 지원되지 않는 연산자로 인해 그래프가 파편화되지 않도록 모델 구조를 최적화해야 한다.

python

compile_spec = EthosUCompileSpec(
    target="ethos-u85-256",
    system_config="Ethos_U85_SYS_DRAM_Mid",
    memory_mode="Shared_Sram",
    extra_flags=["--output-format=raw"],
)
quantizer = EthosUQuantizer(compile_spec)

특정 Arm Ethos-U NPU 타겟에 맞게 컴파일 사양을 설정하고 양자화기를 생성하는 예시

모델 배포 과정을 시각화하기 위해 Arm은 Google Model Explorer용 어댑터를 개발하여 제공한다. 이 도구를 사용하면 .pte 파일 내에서 백엔드별로 그래프가 어떻게 분할되었는지와 TOSA 표현을 직접 확인할 수 있다. 예를 들어 MobileNetV2에 지원되지 않는 LRN 레이어를 추가할 경우 그래프가 여러 조각으로 나뉘어 성능 저하가 발생하는 것을 시각적으로 파악 가능하다. 이러한 가시성은 개발자가 병목 지점을 찾고 모델을 개선하는 데 중요한 역할을 한다.

MobileNetV2 모델이 Ethos-U NPU 백엔드로 전체 위임된 ExecuTorch 그래프 시각화 — Diagram모든 연산자가 지원되어 단일한 EthosUBackend 블록으로 통합된 모습을 보여준다. 이는 CPU 개입 없이 NPU에서 연속적으로 실행되어 최적의 성능을 낼 수 있는 구조임을 의미한다.

LRN 레이어가 추가된 MobileNetV2 모델의 파편화된 ExecuTorch 그래프 시각화 — Diagram지원되지 않는 LRN 레이어로 인해 그래프가 여러 개의 EthosUBackend 블록과 CPU 실행 블록(avg_pool3d 등)으로 나뉜 것을 보여준다. 이러한 파편화는 CPU-NPU 간 전환 오버헤드를 발생시켜 성능을 저하시킨다.

실무 Takeaway

시스템 프롬프트나 고정된 모델 구조를 가진 엣지 앱에 ExecuTorch를 도입하면 Python 런타임 오버헤드를 제거하여 실행 속도와 메모리 효율을 동시에 잡을 수 있다.
Arm 기반 기기에서 최상의 성능을 내려면 XNNPACK 백엔드를 활성화하고 KleidiAI 최적화 커널이 제대로 호출되는지 확인해야 한다.
NPU 가속을 목표로 한다면 설계 단계부터 TOSA에서 지원하는 연산자 위주로 모델을 구성하여 CPU-NPU 간의 데이터 전송 오버헤드를 최소화해야 한다.

언급된 리소스

GitHubArm ExecuTorch Jupyter Labs

문서ExecuTorch Official Documentation

ExecuTorch와 Arm을 활용한 엣지 AI 배포 가이드

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

ExecuTorch와 Arm을 활용한 엣지 AI 배포 가이드

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드