Segment Anything 모델의 진화: SAM 1에서 SAM 3까지의 기술적 여정

핵심 요약

컴퓨터 비전 분야에서 고정된 클래스 기반 세그멘테이션의 한계를 극복하기 위해 메타 AI가 출시한 Segment Anything(SAM) 모델 시리즈가 진화하고 있다. SAM 1은 이미지 기반의 제로샷 기초 모델을 확립했고, SAM 2는 비디오의 시간적 일관성을 위한 메모리 뱅크를 도입했다. 최신 버전인 SAM 3는 텍스트 프롬프트를 통해 특정 개념을 직접 분할하는 오픈 보캐블러리 기능을 제공하여 라벨링 작업의 패러다임을 바꾼다. 이러한 모델들은 Roboflow Workflows를 통해 실무 환경에 즉시 통합되어 복잡한 비전 문제를 해결하는 데 기여한다.

배경

컴퓨터 비전 기초 지식, 객체 탐지(Object Detection) 개념, Python 및 API 활용 능력

대상 독자

컴퓨터 비전 엔지니어 및 데이터 어노테이션 자동화에 관심 있는 AI 개발자

의미 / 영향

SAM 3의 등장은 수동 라벨링 의존도를 낮추고 자연어 기반의 직관적인 비전 시스템 구축을 가속화할 것이다. 이는 의료, 제조 등 특수 도메인에서의 AI 도입 장벽을 크게 낮추는 효과를 가져온다.

섹션별 상세

SAM 1은 이미지 인코더와 경량 프롬프트 디코더를 분리한 아키텍처를 통해 실시간 세그멘테이션의 기초를 마련했다. SA-1B 데이터셋으로 학습되어 사전 정의된 카테고리 없이도 객체의 경계와 '객체성'을 인식하는 제로샷 성능을 보유했다. 하나의 프롬프트에 대해 여러 마스크 후보를 반환하여 모호성을 해결하는 기능이 핵심이다.

SAM 2는 비디오 데이터의 시간적 연속성을 처리하기 위해 메모리 뱅크와 어텐션 메커니즘을 도입했다. 과거 프레임의 공간적 정보와 사용자 프롬프트를 FIFO 큐에 저장하여 객체가 가려지는 상황에서도 정체성을 유지하며 추적한다. 스트리밍 아키텍처를 통해 전체 비디오를 메모리에 로드하지 않고도 실시간 처리가 가능하다.

SAM 3는 기하학적 프롬프트(점, 박스)를 넘어 텍스트 기반의 개념 프롬프트 세그멘테이션(PCS)을 실현했다. 비전과 언어 특징을 정렬한 통합 백본을 사용하여 '골든 리트리버'와 같은 의미론적 개념을 직접 이해하고 분할한다. LLM을 'AI 어노테이터'로 활용한 SA-Co 데이터셋을 통해 복잡한 배경과 희귀 객체에 대한 인식 지능을 높였다.

Roboflow는 SAM 2와 SAM 3를 워크플로우 블록으로 제공하여 개발자가 코딩 없이도 정교한 비전 파이프라인을 구축하도록 지원한다. SAM 2를 객체 탐지 모델과 결합하여 정밀한 인스턴스 마스크를 생성하거나, SAM 3를 단독으로 사용하여 텍스트 프롬프트 기반의 제로샷 세그멘테이션을 수행한다. 이는 데이터셋 구축 및 품질 검사 공정을 획기적으로 단축시킨다.