SAM 3 가중치 다운로드 및 실행 방법 가이드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Meta가 2025년 11월 출시한 SAM 3는 텍스트 프롬프트와 클릭을 결합해 이미지와 비디오 내 객체를 정밀하게 분할하고 추적하는 파운데이션 모델이다. 기존의 복잡한 CUDA 설정이나 PyTorch 빌드 매칭 없이 Roboflow Inference 패키지를 사용하면 한 줄의 코드로 하드웨어 최적화와 가중치 다운로드를 자동화할 수 있다. 본문은 텍스트 기반 개념 분할(PCS), 인터랙티브 포인트 클릭, 그리고 Autodistill을 활용한 자동 라벨링 워크플로우를 코드로 제시한다. 이를 통해 개발자는 고성능 세그멘테이션 기능을 즉시 프로덕션 환경이나 데이터셋 구축에 도입할 수 있다.

배경

Python 프로그래밍 기초, Roboflow API 키, 기본적인 컴퓨터 비전 개념 (Segmentation, Polygon)

대상 독자

컴퓨터 비전 모델을 프로덕션에 배포하거나 데이터셋 라벨링을 자동화하려는 개발자

의미 / 영향

SAM 3의 텍스트 기반 세그멘테이션은 제로샷 객체 분할의 정확도를 크게 높여 특수 도메인 데이터셋 구축 비용을 획기적으로 낮춘다. 특히 Roboflow와 같은 추론 엔진을 통한 배포 편의성 개선은 고성능 비전 모델의 산업 현장 도입을 가속화할 것으로 보인다.

섹션별 상세

SAM 3는 텍스트 프롬프트만으로 이미지 내 객체를 식별하고 분할하는 '프롬프터블 개념 분할(PCS)' 기능을 핵심으로 제공한다. SegmentAnything3 클래스를 초기화하고 텍스트 프롬프트를 전달하면 모델이 해당 명칭에 맞는 객체를 찾아 폴리곤이나 RLE 형식의 마스크를 반환한다. 이 방식은 고정된 클래스에 국한되지 않고 광범위한 어휘를 처리할 수 있어 범용성이 뛰어나다.

OpenCV를 사용하여 시각화된 SAM 3의 폴리곤 세그멘테이션 결과물이다. — ScreenshotSAM 3가 텍스트 프롬프트를 통해 개와 고양이를 정확히 식별하고 그 경계를 폴리곤 형태로 추출했음을 보여준다. 코드 예제에서 생성된 좌표 데이터를 실제 이미지 위에 중첩하여 정확도를 검증하는 용도로 사용된다.

Roboflow Inference 패키지는 하드웨어 감지 및 실행 프로바이더 선택을 자동화하여 SAM 3 도입 장벽을 획기적으로 낮춘다. 사용자는 CUDA 툴킷이나 특정 드라이버를 수동으로 설치할 필요 없이 pip install만으로 Windows, Mac, Linux 등 다양한 환경에서 최적화된 추론을 수행할 수 있다. 가중치 다운로드와 캐싱 역시 첫 실행 시 자동으로 처리되어 관리 부담이 적다.

SAM 3는 포인트 클릭이나 바운딩 박스를 활용한 인터랙티브 세그멘테이션을 지원하여 정밀한 객체 선택이 가능하다. 긍정(Positive) 및 부정(Negative) 포인트를 입력으로 주어 특정 영역을 포함하거나 제외하도록 모델을 가이드할 수 있으며, 이는 복잡한 배경 속 객체 추출에 유용하다. Supervision 라이브러리와 결합하면 이러한 추론 결과를 시각적으로 즉시 확인할 수 있다.

사용자의 클릭 포인트와 그에 따른 세그멘테이션 마스크 생성 결과이다. — Screenshot이미지 중앙의 녹색 점(긍정 포인트)을 기준으로 고양이 객체 전체가 분할된 모습을 보여준다. SAM 3의 인터랙티브 세그멘테이션 기능이 단일 포인트만으로도 정교한 마스크를 생성할 수 있음을 입증한다.

고성능이지만 연산량이 많은 SAM 3를 실시간 엣지 장치에서 활용하기 위해 Autodistill을 이용한 지식 증류(Knowledge Distillation) 워크플로우를 권장한다. SAM 3를 교사 모델로 사용하여 대량의 데이터를 자동으로 라벨링하고, 이를 바탕으로 RF-DETR과 같은 가볍고 빠른 모델을 학습시키는 방식이다. 이 과정은 데이터셋 구축 비용을 절감하고 실제 서비스 적용 속도를 높이는 데 기여한다.

Autodistill과 SAM 3를 결합하여 생성된 자동 라벨링 데이터셋 예시이다. — ScreenshotSAM 3가 생성한 마스크를 기반으로 바운딩 박스와 클래스 라벨이 자동으로 부여된 학습용 데이터를 보여준다. 이 과정이 수동 라벨링 없이 대규모 데이터셋을 구축하는 핵심 워크플로우임을 시각화한다.

실무 Takeaway

Roboflow Inference를 사용하면 복잡한 CUDA 환경 설정 없이 inference-gpu[sam3] 설치만으로 SAM 3를 즉시 실행할 수 있다.
텍스트 프롬프트 기반의 PCS 기능을 활용하면 별도의 학습 없이도 새로운 객체 클래스에 대한 세그멘테이션 마스크를 생성할 수 있다.
연산 자원이 제한된 환경에서는 SAM 3로 자동 라벨링한 데이터를 사용하여 더 가벼운 모델을 학습시키는 Autodistill 워크플로우가 효율적이다.

언급된 리소스

GitHubSAM 3 GitHub Repository

API DocsRoboflow Inference Documentation