TL;DR
SAM2의 프롬프트 기반 분할은 오디오 신호를 프롬프트로 활용하는 데 한계가 있다. 기존 방법은 오디오를 텍스트/박스 프롬프트로 변환하거나 이미지 인코더에 어댑터를 주입해 오디오-비주얼 융합을 시도하지만, 프롬프트-오디오 간 명확한 연결이 부족하고 계산 비용이 증가한다. 본 논문은 AuralFuser를 통해 SAM2의 고정된 이미지 피처를 수정하지 않고 오디오를 외부 모듈에서 직접 융합해, Sparse와 Dense 프롬프트를 피라미드 구조로 생성함으로써 오디오의 크로스모달 신호를 계층적으로 보존한다. 또한 AudioCon으로 오디오를 기준으로 시각 피처를 정렬하도록 대조 학습을 설계해 시각 주도성으로 인한 성능 저하를 완화한다. 이로써 AVSBench(V1m)에서 Jaccard를 개선하고, SAM2 기반 SOTA 방법들보다 우수한 성능을 달성한다.
왜 중요한가
SAM2의 프롬프트 기반 분할은 오디오 신호를 프롬프트로 활용하는 데 한계가 있다. 기존 방법은 오디오를 텍스트/박스 프롬프트로 변환하거나 이미지 인코더에 어댑터를 주입해 오디오-비주얼 융합을 시도하지만, 프롬프트-오디오 간 명확한 연결이 부족하고 계산 비용이 증가한다. 본 논문은 AuralFuser를 통해 SAM2의 고정된 이미지 피처를 수정하지 않고 오디오를 외부 모듈에서 직접 융합해, Sparse와 Dense 프롬프트를 피라미드 구조로 생성함으로써 오디오의 크로스모달 신호를 계층적으로 보존한다. 또한 AudioCon으로 오디오를 기준으로 시각 피처를 정렬하도록 대조 학습을 설계해 시각 주도성으로 인한 성능 저하를 완화한다. 이로써 AVSBench(V1m)에서 Jaccard를 개선하고, SAM2 기반 SOTA 방법들보다 우수한 성능을 달성한다.
핵심 기여
AuralFuser 도입
SAM2의 시각 백본을 수정하지 않으면서 오디오 신호를 외부 모듈로 처리해 오디오-비주얼 융합을 수행하는 모듈로서, 프롬프트를 생성해 마스크 디코더를 안내한다.
피라미드 기반 프롬프트 생성
피라미드 구조에서 다중 스케일의 비주얼 피처와 오디오-언어 정보를 정렬해 Sparse 프롷프트와 Dense 프롬프트를 각각 생성한다. 이로써 오디오 신호의 계층적 영향력을 유지한다.
AudioCon 도입
오디오를 중심으로 시각 피처를 임베딩 공간에서 프로토타입(e+), 음원(y(ω)) 간의 관계를 강화하도록 대조 학습 목표를 설계한다. 시각-오디오 간 정렬은 오디오 프로토타입에 클러스터링되도록 유도한다.
향상된 실험 결과
AVSBench(V1m)에서 2.3 FPS의 추가 비용으로 프롬프트 엔지니어링을 SAM2에 적용하였고, Jaccard 지표에서 3.9% 증가를 달성한다. Ref-AVS 및 AVSBench에서 SOTA 대비 우수한 성능을 기록한다.
핵심 아이디어 이해하기
- 출발점: SAM2는 비주얼 프롬프트(points/boxes)로 작동하지만 오디오 신호는 프롬프트로 직접 작용하기 어려워 오디오 프롬프트가 네트워크를 따라갈 때 약화되는 문제(audio prompt dilution)가 존재한다. 또한 어댑터 기반 융합은 이미지 피처를 변경해 프롬프트 기반 설계의 효율을 저하시킨다.
- 해결 원리: AuralFuser는 SAM2의 고정된 이미지 백본을 유지하면서 오디오 정보를 외부 모듈에서 처리하고, 패치 임베딩으로 구성된 다층 피처 피라미드에 따라 오디오-언어 피처를 각 계층에 주입한다. 이를 통해 오디오 프롬프트를 희소(prompts)와 밀집(prompts) 형태의 피처-레벨 프롷프트로 변환하고, 디코더의 두-방향 교차-주의(attention) 블록에서 점진적으로 반영한다.
- 달라지는 점: 다층 피라미드와 교차-융합 블록의 도입으로 오디오 신호가 깊은 레이어까지 유지되며, AudioCon이 시각 피처를 오디오 프로토타입 주위로 정렬하도록 돕는다. 실험적으로 2.3 FPS의 비용 증가에도 불구하고 AVSBench에서 Jaccard가 개선되며, Visual- dominant latent 공간에서 오디오의 역할이 강화된다.
관련 Figure

오디오 프롬프트가 네트워크 깊숙이 갈수록 약화되는 현상을 시각적으로 나타낸다. 박스 프롬프트는 뒤로 갈수록 강하게 남아있는 반면, 학습된 오디오 프롬프트는 점점 약해진다는 점을 강조한다.
Figure 2: Audio Prompt Dilution 현상과 박스 프롬프트의 안정적 정렬 비교를 보여주는 Heatmap/curve.
방법론
3.1 Preliminaries: SAM2
- 입력 X는 이미지 시퀀스이며 ps는 5개의 희소 프롬프트 토큰, pd는 H'×W'×L 크기의 밀집 피처 맵이다. ps는 점/박스 프롬프트와 연결되고 pd는 마스크 피쳐와 합쳐져 출력 y. ŷ는 y의 마스크 예측치이고 ŷIoU는 예측 마스크의 IoU 점수다. 로지스틱 손실과 IoU 손실 등을 조합해 SAM2의 기본 손실을 구성한다.
3.2 AuralFuser
- 오디오(WAV)와 텍스트(문장) 피처를 각각 VGGish, RoBERTa를 통해 추출하고, SAM2에서 SAM2의 패치 임베딩으로 구성된 피라미드를 형성한다. 각 k=1,2,3에 대해 Visual 피처 z(k)v, 오디오-텍스트 피처 zc를 PatchEmbed으로 임베딩하고 Self-attention(r(k)c, r(k)v)을 수행한 뒤 CrossFusion으로 양 모달리티를 융합한다. k≥2에서는 이전 단계의 z(k-1)v와 ˜z(k)v를 Smooth 연산으로 합쳐 피처 피라미드를 구성한다. 이로써 두 가지 프롬프트를 얻는다: sparse(a)와 dense(v).
- ˜p_mask^k와 ˜p^k_d는 각 레벨에서 p_mask^k와 p_d^k에 각각 a-프롬프트와 v-프롬프트를 더해 업데이트되며, 학습은 p_mask^k와 p_d^k에 한정한다.
3.3 AudioCon
- Ea와 Ev를 각각 오디오 임베딩과 시각 임베딩의 샘플로 구성하고, 이들 간의 대조를 통해 e+를 중심으로 시각 피쳐를 묶어준다. 입력: y(ω)인 픽셀 위치의 라벨과 매칭 여부에 따라 I( )를 이용해 Loss ℓctrs를 계산한다. 이 손실은 AudioCon이 오디오 임베딩에 초점을 맞추고 시각-시각 간의 불필요한 상호 작용을 억제하도록 설계되었다.
3.4 Training Objective
- 전체 손실: L(D, θ) = ℓSAM2(D, θ_vgg, θ(k)) + ℓctrs(D, θ_pa, θ_pv). 학습은 k=1..3의 파라미터를 부분적으로 업데이트하며, ŷ마스크에 대해 가장 낮은 ℓSAM2를 가진 프롬프트만 감독된다.
관련 Figure

이 그림은 오디오 기반 가이드가 프롬프트로 변환되어 SAM2의 다른 구성요소로 전달되는 과정을 시각화한다. 프롬프트 엔지니어링의 흐름과 대조 방식의 차이를 보여주며, AuralFuser의 필요성 및 접근 방식을 직관적으로 설명한다.
Figure 1: 오디오-비주얼 프롬프트 엔지니어링의 개념적 비교와 SAM2의 프롬프트 흐름을 다이어그램으로 제시한다.

오디오-텍스트-시각 피처의 PatchEmbed, Self-Attn, CrossFusion 단계를 시각화한다. 다층 피라미드에서 각 레벨의 피처가 어떻게 융합되고 프롬프트로 확장되는지에 대한 설계를 명확히 보여준다.
Figure 3: AuralFuser 구조와 멀티모달 피처의 흐름을 보여주는 다이어그램.
주요 결과
메인 벤치마크 결과
- Ref-AVS: Ours AuralSAM2(Hiera-l) on Seen: MJ 56.16, MF 61.19, J&F 58.68; Unseen: MJ 68.69, MF 74.36, J&F 71.53; S = 0.065. GAVS 대비 Seen에서 +5.2%의 Jaccard 차이를 시현했고, Hiera+l 백본으로의 개선으로 평균 Jaccard가 추가로 상승한다.
- AVSBench (V1m): Ours AuralSAM2(Hiera-l) MJ 86.62, MF 93.34, J&F 89.98(Seen); 75.58, 84.12, 79.85(Unseen); 50.57, 56.03로 Ref-AVS 대비 향상된다. Ours SAM(w/ AuralFuser)도 VGGish+ViT-h로 84.78, 91.92, 65.22(Seen) 등 높은 성능을 기록한다.
- AVSBench V1m의 Prompting 실험: 충분한 프롬프트(Points/Box/Mask) 조합에서 GAVS/SAMA-AVS 대비 우수한 성능을 보이며, 14.1 FPS의 Throughput을 유지하며 2.56%의 J&F 향상을 달성한다.
- ablations: AudioCon 도입은 J&F를 0.77에서 1.25까지 개선하며, Pyramid를 도입한 경우 추가로 3.55%의 개선 효과를 보이고, Dense Prompts의 제거는 성능 저하를 일으킨다. Sparse Prompts 제거 시에도 성능 손실이 크게 나타난다.
관련 Figure

픽셀-단위 교차-주의 강도의 분포 차이를 보여주고, AuralSAM2가 SOTA 대비 더 높은 밀도를 형성한다는 것을 시사한다. Late/ middle 단계에서의 분포 차이가 작아지며 안정적 크로스-모달 정합을 시사한다.
Figure 4: 교차-주의 강도 분포와 오디오 프롬프트의 효과를 시각화한 Density plot.

다양한 프롬프트 설정에서 제시된 프롬프트-엔지니어링의 질적 차이를 보여준다. Ours가 두 객체 예시에서 더 정확한 마스크를 제시하는 경향을 보이며, Hiera-l 백본에서 더 향상된 결과를 보여준다.
Figure 5: Ref-AVS 데이터셋에서의 질적 결과 및 GAVS/SAMA-AVS 대비 Ours의 비교.
기술 상세
아키텍처: SAM2 외부에 AuralFuser를 배치해 오디오-비주얼 피처를 융합하고, PatchEmbed를 통해 k=1,2,3 레벨에서 Zv를 생성한 뒤 Self-Attn과 CrossFusion을 사용한다. 피라미드는 Early/Middle/Late Layer로 구성되며, 각 레벨에서 ˜z_v와 ˜z_v-1를 합성해 차원 정렬을 유지한다. 프롬프트는 ˜p_mask^k(희소 프롬프트)와 ˜p_d^k(밀집 프롬프트)로 구성되며, 세 단계의 CrossAttention 블록에서 점진적으로 더해진다. 학습은 ℓSAM2와 ℓctrs의 합으로 구성되며, ŷ마스크, ŷIoU, ŷobj 값을 활용한다. AudioCon은 Ea와 Ev를 projection하고, e+, e−를 이용한 N-way 대조 손실로 시각-오디오 임베딩 간 정렬을 강화한다. 이 구성은 SAM2의 성능 저하 없이 오디오 가이드를 프롬프트로 활용하는 것을 목표로 한다.
실무 활용
오디오-시각 다중모달 시나리오에서 SAM2의 프롬프트 기반 분할 성능을 오디오 신호에 의해 보강하되, 이미지 피처를 수정하지 않는 외부 모듈로 구현하여 인터랙티브 피드백의 효율성을 유지한다.
- 실시간 영상 편집에서 대화 소리의 대상 객체를 즉시 하이라이트
- 감시/보안 영상에서 음원 소리의 소스 식별 및 마스크링
- 언어-도우드 영상 주석 없이도 오디오 단서로 객체를 추적
- 로봇 비전 시스템에서 소리의 방향성에 따라 시각적 주의 집중 강화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.