RotoAI: SAM2와 Grounding DINO를 활용한 오픈소스 프롬프트 기반 비디오 세그멘테이션 도구

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

저사양 환경에서 SAM2와 Grounding DINO를 활용해 비디오 객체 추적 및 VFX 효과를 적용할 수 있는 하이브리드 클라우드-로컬 아키텍처 기반 오픈소스 도구이다.

배경

대규모 기초 모델을 고사양 VRAM 없이도 사용할 수 있도록 로컬 UI와 구글 코랩 T4 GPU를 결합한 하이브리드 구조의 비디오 편집 도구 RotoAI를 개발하여 공유했다.

의미 / 영향

저사양 환경에서도 최신 비전 모델을 활용할 수 있는 실질적인 아키텍처 대안을 제시했다. 특히 SAM2와 같은 고성능 모델의 진입 장벽을 낮추기 위해 클라우드 자원을 효율적으로 연동하는 방식은 개인 개발자나 소규모 팀에게 유용한 전략이 될 수 있다.

실용적 조언

고사양 GPU가 없다면 Google Colab과 Ngrok을 활용해 추론 서버를 구축하여 VRAM 한계를 극복할 수 있다.
긴 비디오 처리 시 메모리 부족을 방지하기 위해 5초 단위로 영상을 나누어 처리하는 청킹 전략을 권장한다.

섹션별 상세

하이브리드 클라우드-로컬 아키텍처를 도입하여 하드웨어 제약을 극복했다. React 기반의 사용자 인터페이스는 로컬에서 실행하고 실제 PyTorch 추론 연산은 Ngrok을 통해 연결된 무료 구글 코랩 T4 GPU로 오프로딩하는 방식을 채택했다. 이를 통해 고사양 GPU가 없는 사용자도 SAM2와 같은 무거운 모델을 활용할 수 있는 환경을 구축했다.

프롬프트 기반의 제로샷 객체 탐지 및 세그멘테이션 기능을 제공한다. Grounding DINO를 사용하여 빨간 셔츠를 입은 사람과 같은 텍스트 설명만으로 마스크를 생성할 수 있으며 사용자가 직접 학습시킨 커스텀 YOLO 가중치를 연결하여 사용할 수도 있다. 생성된 마스크는 SAM2를 통해 비디오 전체에서 정밀하게 추적된다.

비디오 처리 중 발생하는 메모리 부족 문제를 해결하기 위해 스마트 청킹 기술을 적용했다. 긴 비디오를 5초 단위의 세그먼트로 분할하여 처리하고 하드웨어 사양에 맞춰 해상도를 자동으로 조절하는 오토 레졸루션 스케일링 기능을 포함했다. 이러한 최적화 기법을 통해 제한된 자원에서도 안정적인 비디오 프로세싱이 가능하다.

추적 완료 후 즉시 적용 가능한 다양한 VFX 효과를 내장하고 있다. 크로마 키, 보케 블러, 네온 글로우, 흑백 컬러 팝 등의 효과를 클릭 몇 번으로 적용할 수 있다. 이는 단순한 연구용 도구를 넘어 실제 영상 편집 워크플로우에 활용될 수 있는 실용성을 목표로 한다.

실무 Takeaway

RotoAI는 SAM2와 Grounding DINO를 결합하여 텍스트 프롬프트만으로 비디오 객체를 분할하고 추적하는 오픈소스 도구이다.
로컬 UI와 클라우드 GPU를 연결하는 하이브리드 아키텍처로 VRAM 부족 문제를 해결했다.
5초 단위 청킹과 자동 해상도 조절 기능을 통해 저사양 하드웨어에서도 긴 비디오를 처리할 수 있는 안정성을 확보했다.

언급된 도구

SAM2추천

비디오 객체 세그멘테이션 및 추적

Grounding DINO추천

텍스트 프롬프트 기반 제로샷 객체 탐지

Google Colab추천

T4 GPU를 활용한 원격 추론 서버

Ngrok추천

로컬과 클라우드 서버 간의 터널링 연결

언급된 리소스

GitHubRotoAI GitHub Repository