핵심 요약
기존의 분할 모델들은 이미지나 비디오 중 하나에 특화되어 있거나 텍스트와 시각적 프롬프트를 동시에 처리하는 데 한계가 있었다. X2SAM은 이를 하나의 프레임워크로 통합하여 복잡한 대화형 지시문과 시각적 프롬프트를 모두 지원하며 비디오에서의 시간적 일관성까지 확보했다.
왜 중요한가
기존의 분할 모델들은 이미지나 비디오 중 하나에 특화되어 있거나 텍스트와 시각적 프롬프트를 동시에 처리하는 데 한계가 있었다. X2SAM은 이를 하나의 프레임워크로 통합하여 복잡한 대화형 지시문과 시각적 프롬프트를 모두 지원하며 비디오에서의 시간적 일관성까지 확보했다.
핵심 기여
통합 이미지-비디오 분할 아키텍처
이미지와 비디오 데이터를 동일한 인터페이스에서 처리할 수 있는 단일 MLLM 기반 프레임워크를 구축하여 7가지 이상의 다양한 분할 작업을 통합 수행한다.
Mask Memory 모듈 도입
이전 프레임의 가이드된 시각적 특징을 저장하고 활용하는 Mask Memory를 통해 비디오 시퀀스 내에서 객체의 시간적 일관성을 유지하며 마스크를 생성한다.
V-VGD 벤치마크 제안
대화형 시각적 프롬프트를 통해 비디오 내 객체 트랙을 분할하는 능력을 평가하는 새로운 Video Visual Grounded segmentation 벤치마크를 도입했다.
관련 Figure

모델이 일반 분할, 참조 분할, 추론 분할 등 7가지 이상의 복잡한 작업을 이미지와 비디오 모두에서 일관되게 수행함을 보여준다. 텍스트 지시문과 시각적 프롬프트가 결합된 멀티모달 인터페이스의 범용성을 입증한다.
X2SAM이 수행하는 다양한 이미지 및 비디오 분할 작업의 시각화 예시
핵심 아이디어 이해하기
기존의 Transformer 기반 분할 모델은 각 프레임을 독립적으로 처리하거나 단순한 전파 방식에 의존하여 복잡한 언어 지시를 따르는 비디오 분할에서 한계를 보였다. 특히 Self-Attention 메커니즘만으로는 시각적 프롬프트와 텍스트 지시문 사이의 정밀한 정렬을 유지하면서 긴 비디오 시퀀스의 일관성을 확보하기 어렵다.
X2SAM은 LLM의 출력 토큰인 임베딩을 마스크 디코더의 쿼리로 활용하여 언어적 맥락을 시각적 특징에 직접 주입한다. 이때 Mask Memory 모듈이 과거 프레임의 특징을 FIFO(First-In-First-Out) 방식으로 캐싱하여 현재 프레임의 디코딩 과정에 참조 데이터로 제공함으로써 시간적 연속성을 보장한다.
결과적으로 모델은 '저 사람을 따라가며 분할해줘'와 같은 추상적인 명령을 수행할 때, 첫 프레임에서 생성된 임베딩 정보를 메모리에 저장해두었다가 다음 프레임에서 동일한 객체를 식별하는 앵커로 사용한다. 이를 통해 별도의 사후 처리 없이도 매끄러운 비디오 마스크 생성이 가능해진다.
방법론
전체 구조는 시각적 특징을 추출하는 Vision Encoder(Qwen3-VL 기반)와 미세한 픽셀 정보를 캡처하는 Mask Encoder(SAM 2 기반)의 듀얼 브랜치로 구성된다. 입력된 이미지/비디오 Xv와 지시문 Xq는 각각 인코딩되어 LLM으로 전달되며, LLM은 응답 Yq와 함께 마스크 생성을 위한 전용 토큰의 잠재 임베딩을 생성한다.
핵심 메커니즘인 Mask Decoder는 LLM에서 전달된 조건부 임베딩 Zp와 Mask Memory에서 가져온 이전 프레임 특징 Zw를 통합한다. [Zp, Qm, Zw → Cross-Attention → Ym] 순으로 연산이 수행되며, 여기서 Qm은 학습 가능한 마스크 쿼리이다. 이 과정을 통해 언어적 지시와 시각적 메모리가 결합된 최종 이진 마스크 Ym이 픽셀 단위로 출력된다.
학습은 두 단계로 진행된다. 첫 번째 단계인 Agnostic Segmentor Training에서는 마스크 디코더만 최적화하여 범용적인 형태 및 경계 인지 능력을 학습시킨다. 두 번째 단계인 Unified Joint Training에서는 이미지와 비디오의 이질적인 데이터셋을 통합하여 LLM의 LoRA 파라미터와 인코더/디코더를 동시에 미세 조정하며, 이때 모달리티별 배치 크기 조절과 그래디언트 누적 전략을 사용하여 학습 효율을 극대화한다.
관련 Figure

Vision Encoder, LLM, Mask Decoder, 그리고 핵심인 Mask Memory 모듈 간의 데이터 흐름을 상세히 나타낸다. 특히 LLM에서 생성된 <SEG> 토큰이 어떻게 마스크 생성의 가이드 역할을 하는지 구조적으로 설명한다.
X2SAM의 전체 시스템 아키텍처 다이어그램
주요 결과
이미지 분할 벤치마크인 COCO에서 54.1 PQ를 기록하며 기존 이미지 전용 모델인 X-SAM과 대등한 성능을 유지하면서도 비디오 작업에서 압도적인 향상을 보였다. 특히 비디오 참조 분할(V-Ref) 작업인 YT21 데이터셋에서 J&F 점수 78.5를 달성하여 이전 SOTA 모델들을 큰 폭으로 상회했다.
Ablation Study 결과, Mask Memory를 사용하지 않았을 때보다 사용했을 때 V-Ref 성능이 53.6에서 63.3으로 약 18% 향상되어 시간적 일관성 유지의 중요성을 입증했다. 또한 제안된 V-VGD 벤치마크에서 SAM 2 대비 박스 프롬프트 기준 약 20% 이상의 성능 우위를 점하며 복잡한 환경에서의 강건함을 보여주었다.
효율성 측면에서는 통합 공동 학습 전략을 통해 개별 학습 대비 GPU 학습 시간을 약 36.5% 단축(5.2K → 3.3K GPU hours)하면서도 전반적인 성능 향상을 이끌어냈다.
기술 상세
X2SAM의 아키텍처는 Qwen3-VL-4B를 백본으로 사용하며, 고해상도 마스크 예측을 위해 SAM 2의 마스크 인코더 구조를 채택했다. 텍스트 임베딩과 시각적 특징의 정렬을 위해 Mask Decoder 내부에 Token-to-Image Attention 레이어를 추가하고 이를 제로 초기화(Zero-initialization)하여 초기 학습의 안정성을 확보했다.
Mask Memory 모듈은 고정된 크기(K=6)의 FIFO 큐를 사용하여 메모리 사용량을 제어하면서도 충분한 시간적 맥락을 제공한다. 각 프레임의 마스크 로짓과 다운샘플링된 시각 특징을 결합하여 메모리에 저장하며, 이를 현재 프레임의 쿼리가 참조하도록 설계하여 프레임 간 마스크 전파의 정확도를 높였다.
학습 손실 함수는 언어 생성을 위한 Lar, 마스크 생성을 위한 Lmask(Binary Cross-Entropy + Dice Loss), 그리고 객체 분류를 위한 Lcls(Focal Loss)를 결합한 통합 손실 함수를 사용한다. 비디오 데이터 학습 시에는 메모리 제약 해결을 위해 프레임 단위로 텐서를 분할 처리하는 차원 이동 파이프라인(Dimension-shifting pipeline)을 적용했다.
관련 Figure

Memory Attention, Memory Encoder, Memory Bank로 구성된 메모리 시스템의 작동 원리를 보여준다. FIFO 전략을 통해 이전 프레임의 특징이 현재 프레임의 마스크 생성에 어떻게 기여하는지 기술적으로 명시한다.
Mask Memory와 Mask Decoder의 내부 구조 상세도
한계점
이질적인 이미지와 비디오 데이터셋에 대한 통합 학습은 여전히 높은 컴퓨팅 비용과 메모리 점유율을 요구한다. 또한 고정된 크기의 FIFO 메모리는 객체가 장시간 가려지거나(Occlusion) 급격한 외형 변화가 발생하는 경우 과거 정보를 소실할 위험이 있다.
실무 활용
X2SAM은 복잡한 자연어 명령으로 비디오 내 특정 객체를 정밀하게 추적하고 분할해야 하는 실무 환경에 즉시 적용 가능하다. 특히 영상 편집, 자율주행 데이터 라벨링, 지능형 관제 시스템 등에서 높은 활용도를 가진다.
- 대화형 영상 편집: '빨간 옷을 입은 사람만 지워줘'와 같은 명령으로 특정 객체 마스킹 자동화
- 자율주행 학습 데이터 구축: 복잡한 도로 상황 비디오에서 특정 위험 요소(예: 무단횡단 보행자)를 텍스트로 지정하여 정밀 라벨링
- 지능형 보안 관제: 특정 행동을 하는 인물을 지칭하여 실시간으로 추적 및 분할
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.