ExecuTorch와 Arm을 활용한 엣지 기기용 PyTorch 모델 배포 가이드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

AI 기술이 클라우드를 넘어 손바닥 크기의 엣지 기기로 확장되고 있지만, 킬로바이트 단위의 메모리 제약은 기존 PyTorch 모델 실행에 큰 장벽이다. ExecuTorch는 이러한 간극을 메우기 위해 개발된 경량 런타임으로, 양자화와 그래프 컴파일을 통해 PyTorch 워크플로우를 저전력 Arm 기반 마이크로컨트롤러에 연결한다. 본 아티클은 소형 CNN 모델을 학습시키고 ExecuTorch를 통해 Arm Ethos-U NPU가 포함된 가상 플랫폼에 배포하는 전체 파이프라인을 다룬다. 이를 통해 데이터 센터의 유연성을 IoT 센서나 웨어러블 기기까지 확장하여 개인정보 보호와 저전력 AI 구현이 가능해짐을 보여준다.

배경

PyTorch 기본 지식, Ubuntu 22.04 이상의 리눅스 환경, 기본적인 임베디드 시스템 개념

대상 독자

TinyML 및 엣지 AI 개발자, 임베디드 시스템 엔지니어

의미 / 영향

PyTorch 생태계가 초소형 임베디드 기기까지 확장됨에 따라, 개발자들이 익숙한 도구로 저전력/고효율 온디바이스 AI를 더 쉽게 구축할 수 있게 된다. 이는 스마트 홈, 웨어러블, 산업용 IoT 분야에서 AI 도입 문턱을 크게 낮추는 효과를 가져온다.

섹션별 상세

ExecuTorch는 PyTorch 모델을 .pte라는 컴팩트하고 휴대 가능한 이진 포맷으로 변환하여 운영체제가 없는 임베디드 환경에서도 실행 가능하게 한다. 이 과정에서 가중치와 활성화 함수를 float32에서 int8 정수형으로 변환하는 양자화가 수행되어 메모리 점유율과 연산 비용을 획기적으로 줄인다.

Tiny RPS(가위바위보) 게임 프로젝트는 데이터셋 생성부터 모델 학습, ExecuTorch 내보내기, 가상 플랫폼 배포까지 이어지는 완전한 TinyML 워크플로우를 제공한다. 28x28 그레이스케일 이미지를 분류하는 소형 CNN 구조를 사용하여 임베디드 환경에 최적화된 설계를 채택했다.

Arm Corstone-320 FVP(Fixed Virtual Platform)를 활용하면 실제 하드웨어 없이도 Cortex-M CPU와 Ethos-U NPU가 조합된 환경을 소프트웨어적으로 시뮬레이션할 수 있다. 개발자는 로컬 리눅스 환경에서 .pte 파일을 실행하여 실시간 온디바이스 추론 성능을 검증하고 인터랙티브한 테스트를 진행할 수 있다.

python

import torch
import torch.nn as nn

class TinyRPS(nn.Module):
    def __init__(self):
        super().__init__()
        self.body = nn.Sequential(
            nn.Conv2d(1, 16, 3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(16, 32, 3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2),
            nn.Conv2d(32, 64, 3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2),
        )
        self.head = nn.Sequential(
            nn.Flatten(),
            nn.Linear(64 * 7 * 7, 128),
            nn.ReLU(inplace=True),
            nn.Linear(128, 3),
        )

    def forward(self, x):
        x = self.body(x)
        x = self.head(x)
        return x

가위바위보 이미지를 분류하기 위해 설계된 경량 CNN 모델 구조 정의

python

from executorch import exir
from torch.export import export

def export_to_pte(model: nn.Module, out_path: str, img_size: int) -> None:
    model.eval()
    example = torch.zeros(
        1, 1, img_size, img_size, dtype=torch.float32
    )
    # Export with PyTorch’s exporter
    exported = export(model, (example,))
    edge = exir.to_edge(exported)
    prog = edge.to_executorch()
    with open(out_path, "wb") as f:
        f.write(prog.buffer)
    print(f"[export] wrote {out_path}")

학습된 PyTorch 모델을 ExecuTorch용 .pte 파일로 내보내는 과정

PyTorch의 유연한 실험 환경이 데이터 센터에 국한되지 않고 IoT 센서나 웨어러블 기기 같은 마이크로 엣지 영역까지 확장될 수 있음을 입증했다. 이는 저전력 기기에서도 프라이버시를 보호하며 실시간 AI 기능을 구현할 수 있는 기술적 토대를 마련한다.

터미널에서 실행 중인 가위바위보 게임의 ASCII 아트와 모델 추론 결과 화면이다. — Screenshot모델이 사용자의 입력을 'paper'로, 상대방의 입력을 'rock'으로 각각 100% 확률로 정확히 인식하여 승리 판정을 내리는 과정을 보여준다. 이는 ExecuTorch가 임베디드 시뮬레이션 환경에서 실시간 추론을 성공적으로 수행함을 입증하는 결과물이다.

실무 Takeaway

ExecuTorch를 활용하면 1MB 미만의 RAM을 가진 마이크로컨트롤러에서도 PyTorch 기반 AI 모델을 실행할 수 있는 .pte 파일을 생성할 수 있다.
모델 배포 시 int8 양자화를 적용하면 정확도 손실을 최소화하면서 메모리 사용량을 줄이고 추론 속도를 개선하는 최적화가 가능하다.
실제 하드웨어가 준비되지 않은 단계에서도 Arm FVP 시뮬레이터를 사용하면 임베디드 AI 모델의 동작을 로컬에서 즉시 검증할 수 있다.

언급된 리소스

튜토리얼Edge AI with PyTorch & ExecuTorch – Tiny RPS on Arm