NVIDIA Jetson에 오픈소스 시각 언어 모델(VLM) 배포하기

핵심 요약

엣지 디바이스에서 시각적 지각과 의미론적 추론을 결합한 시각 언어 모델(VLM)의 실시간 구동 수요가 증가하고 있다. 본 가이드는 NVIDIA Jetson 하드웨어와 vLLM 프레임워크를 사용하여 Cosmos Reason 2B 모델을 FP8 양자화 버전으로 배포하는 과정을 상세히 다룬다. 특히 메모리가 제한적인 Orin Nano Super를 위한 최적화 플래그 설정과 실시간 인터페이스인 Live VLM WebUI 연결 방법을 포함한다. 이를 통해 로보틱스 및 물리적 AI 애플리케이션에서 고성능 시각 추론 기능을 엣지단에서 구현하는 것이 가능하다.

배경

NVIDIA Jetson AGX Thor 또는 Orin 시리즈 디바이스, JetPack 6 또는 7 설치, Docker 및 NVIDIA Container Runtime 설정, NVIDIA NGC 계정 및 API 키

대상 독자

엣지 AI 및 로보틱스 애플리케이션을 개발하는 엔지니어

의미 / 영향

고성능 VLM을 저전력 엣지 기기에서 구동 가능하게 함으로써 클라우드 연결 없이도 현장에서 즉각적인 시각적 의사결정이 필요한 물리적 AI 서비스의 보급을 가속화한다.

섹션별 상세

NVIDIA Jetson 라인업인 AGX Thor, AGX Orin, Orin Nano Super를 지원하며 각 기기에 맞는 JetPack 버전과 하드웨어 요구사항을 정의한다. AGX Thor는 JetPack 7을, Orin 시리즈는 JetPack 6를 사용하며 모델 가중치와 컨테이너 이미지를 위해 NVMe SSD 설치가 필수적이다.

NVIDIA NGC CLI를 사용하여 FP8로 양자화된 Cosmos Reason 2B 모델 체크포인트를 다운로드하고 vLLM Docker 이미지를 준비한다. 모델은 약 5GB의 용량을 차지하며 vLLM 컨테이너를 통해 Jetson 하드웨어 가속을 활용한 추론 환경을 구축한다.

메모리 용량에 따라 vLLM 서빙 옵션을 차별화하여 적용한다. AGX Thor와 Orin은 8192 토큰의 컨텍스트 길이를 지원하는 반면, Orin Nano Super는 메모리 제약으로 인해 컨텍스트 길이를 256으로 제한하고 CUDA 그래프 비활성화 및 청크 단위 프리필(Chunked Prefill) 등 공격적인 최적화 플래그를 사용한다.

배포된 모델을 Live VLM WebUI와 연결하여 실시간 웹캠 스트리밍 분석 환경을 조성한다. WebUI 설정에서 API 베이스 URL을 vLLM 엔드포인트로 지정하고 프레임 처리 간격 및 최대 토큰 수를 조정하여 엣지 환경에 최적화된 실시간 추론 성능을 확보한다.

</> 코드 예제 포함

실무 Takeaway

vLLM의 --enforce-eager 및 --enable-chunked-prefill 플래그를 사용하여 8GB 미만의 제한된 메모리 환경에서도 VLM 구동이 가능하다.
FP8 양자화 모델을 사용함으로써 모델 크기를 줄이고 Jetson의 하드웨어 가속기 성능을 극대화하여 추론 속도를 향상시킨다.
Live VLM WebUI를 활용하면 별도의 프론트엔드 개발 없이도 엣지 디바이스에서 실시간 시각 추론 결과를 즉시 시각화할 수 있다.

언급된 리소스

문서Cosmos Reason 2B on Hugging Face

GitHubLive VLM WebUI GitHub

튜토리얼Jetson AI Lab Tutorials