Jetson Orin Nano에서 YOLO11n과 MediaPipe를 활용한 실시간 다중 비전 시스템 구축

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Jetson Orin Nano 8GB에서 YOLO, MiDaS, MediaPipe를 결합해 실시간 객체 탐지 및 거리 추정을 구현한 프로젝트이다.

배경

Jetson Orin Nano 8GB 환경에서 YOLO11n, MiDaS, MediaPipe 등 여러 비전 모델을 동시에 구동하는 시스템을 구축하고, 하드웨어 제약 조건에서의 최적화 경험과 성능 수치를 공유했다.

의미 / 영향

이 프로젝트는 Jetson Orin Nano와 같은 저전력 엣지 디바이스에서도 적절한 양자화와 병렬 처리 전략을 통해 복잡한 다중 모델 비전 시스템을 실시간으로 운영할 수 있음을 보여준다. 특히 하드웨어 특성에 맞춘 알고리즘 단순화가 실무 성능 확보의 핵심이다.

커뮤니티 반응

작성자가 공유한 하드웨어 최적화 기법에 대해 긍정적인 반응이며, 특히 제한된 자원에서 여러 모델을 융합하는 파이프라인 설계 방식에 관심을 보였다.

실용적 조언

MediaPipe 사용 시 성능 저하를 막으려면 640x480으로 다운스케일링 후 좌표를 재매핑할 것
엣지 디바이스에서 사람 추적 시 Re-identification 모델이 너무 무겁다면 바운딩 박스 높이 비율을 대안으로 검토할 것

섹션별 상세

Jetson Orin Nano 8GB에서 YOLO11n, MiDaS, MediaPipe(Face, Hands, Pose)를 동시 구동하는 파이프라인을 구축했다. 모든 모델 활성화 시 10-15 FPS, INT8 양자화 적용 시 30-40 FPS의 성능을 확보했다. 이는 제한된 엣지 디바이스 자원을 효율적으로 분배하여 실시간 추론이 가능함을 입증한 사례이다.

MediaPipe가 고해상도(640x480 이상)에서 성능이 저하되는 문제를 해결하기 위해 병렬 다운스케일링 스트림 방식을 채택했다. 입력 영상을 저해상도로 낮춰 MediaPipe를 실행한 뒤, 결과 좌표를 원래 해상도에 맞춰 재매핑(Coordinate Remapping)하여 정확도와 속도를 동시에 잡았다. 이 방식은 고해상도 처리가 필요한 비전 시스템의 병목 현상을 해결하는 실무적인 접근법이다.

MiDaS 모델의 상대적 깊이 정보를 활용해 객체와의 대략적인 거리를 추정하는 로직을 구현했다. 객체 탐지(YOLO)의 바운딩 박스 중심 좌표를 깊이 맵에서 샘플링하여 약 40cm와 같은 문자열로 거리 정보를 출력하며, 이는 정밀 조작보다는 내비게이션 용도로 적합하다. 센서 융합 없이 단일 카메라만으로 거리감을 확보하려는 시도이다.

하드웨어 부하를 줄이기 위해 무거운 Re-identification 모델 대신 바운딩 박스의 높이 비율을 이용한 사람 추적 로직을 설계했다. 카메라에 가까울수록 바운딩 박스가 커진다는 원리를 이용해 높이 비율로 거리를 판단하며 실내 추적 환경에서 충분한 견고함을 보였다. 복잡한 알고리즘 대신 물리적 특성을 활용한 최적화의 예시이다.

실무 Takeaway

Jetson Orin Nano에서 다중 모델 구동 시 INT8 양자화를 통해 성능을 최대 30-40 FPS까지 끌어올릴 수 있다.
MediaPipe의 해상도 제약은 저해상도 병렬 처리와 좌표 재매핑 기법으로 우회 가능하다.
상대 깊이 모델(MiDaS)과 객체 탐지 결과를 결합하여 단일 카메라로도 내비게이션 수준의 거리 추정이 가능하다.

언급된 도구

YOLO11n추천

객체 탐지

MiDaS추천

단안 깊이 추정

MediaPipe추천

얼굴, 손, 포즈 인식 및 랜드마크 추출

Jetson Orin Nano추천

엣지 컴퓨팅 하드웨어 플랫폼

언급된 리소스

GitHubOpenEyes GitHub Repository