핵심 요약
시각 언어 모델(VLM)이 실제 서비스에 도입되면서 이미지에 숨겨진 미세한 노이즈로 모델을 속이는 적대적 공격이 심각한 보안 위협으로 부상했다. 이 논문은 추가적인 재학습 없이도 기존 모델에 간단히 끼워 넣어 공격을 실시간으로 감지할 수 있는 가벼운 방화벽 기술을 제시하여 VLM의 실무 안전성을 크게 높였다.
왜 중요한가
시각 언어 모델(VLM)이 실제 서비스에 도입되면서 이미지에 숨겨진 미세한 노이즈로 모델을 속이는 적대적 공격이 심각한 보안 위협으로 부상했다. 이 논문은 추가적인 재학습 없이도 기존 모델에 간단히 끼워 넣어 공격을 실시간으로 감지할 수 있는 가벼운 방화벽 기술을 제시하여 VLM의 실무 안전성을 크게 높였다.
핵심 기여
SAEgis 프레임워크 제안
희소 오토인코더(SAE)를 활용하여 VLM 내부의 잠재 특징을 분석하고, 적대적 공격에만 반응하는 특정 신호를 포착하여 공격 여부를 판별하는 경량 탐지 시스템을 구축했다.
재학습 없는 플러그 앤 플레이 구조
기존 VLM의 가중치를 수정하거나 복잡한 적대적 학습(Adversarial Training)을 거치지 않고도, 사전 학습된 SAE를 삽입하는 것만으로 즉각적인 방어 성능을 제공한다.
강력한 교차 도메인 일반화 성능
학습 시 보지 못한 새로운 데이터셋이나 처음 접하는 유형의 공격 방식에 대해서도 기존 밀집(Dense) 모델 기반 탐지기보다 월등히 높은 탐지 정확도를 유지함을 입증했다.
핵심 아이디어 이해하기
딥러닝 모델의 내부 레이어는 입력 데이터의 특징을 수치화된 벡터(Embedding)로 표현한다. 정상적인 이미지는 모델이 학습 과정에서 익힌 일정한 패턴의 벡터 활성화 양상을 보이지만, 적대적 공격이 포함된 이미지는 모델을 속이기 위해 설계된 인위적인 신호를 포함하므로 정상 범주를 벗어난 특이한 벡터 패턴을 생성하게 된다.
이 논문은 희소 오토인코더(SAE)가 이러한 '특이 패턴'을 포착하는 데 매우 유리하다는 점에 주목했다. SAE는 수만 개의 잠재 특징 중 극히 일부만 활성화하여 데이터를 설명하도록 설계되었는데, 정상 이미지 학습 시에는 일반적인 시각적 특징을 담당하는 뉴런들이 주로 반응한다. 반면, 적대적 노이즈가 유입되면 평소에는 거의 쓰이지 않던 '공격 관련 특징' 뉴런들이 강하게 반응하기 시작한다.
결과적으로 SAEgis는 특정 레이어에서 어떤 뉴런들이 얼마나 활발하게 움직이는지를 관찰함으로써, 이미지의 겉모습은 정상처럼 보이더라도 내부적으로 모델을 기만하려는 시도가 있는지 정확히 가려낼 수 있다. 이는 마치 지문 인식기가 미세한 굴곡의 차이를 잡아내어 위조 지문을 판별하는 것과 유사한 원리이다.
방법론
SAEgis는 크게 특징 선택과 공격 탐지의 두 단계로 구성된다. 먼저 사전 학습된 VLM의 Vision Encoder나 Projection Layer 뒤에 SAE 모듈을 배치한다. SAE는 입력 벡터 x를 인코더 가중치 W_enc와 곱하고 ReLU 활성화를 거쳐 희소 잠재 벡터 f를 생성한 뒤, 다시 디코더 가중치 W_dec를 통해 원래 벡터를 복원하도록 학습된다.
공격 관련 특징을 식별하기 위해, 각 특징 i에 대해 활성화 강도의 최댓값과 활성화된 토큰의 개수(공간적 범위)를 곱하여 점수를 산출한다. [특징 i의 활성화 값 a_{i,t} 중 최대치 → 활성화된 토큰 수의 로그값과 곱셈 → 특징 점수 도출 → 이 점수가 높을수록 해당 특징이 이미지 전체 혹은 국소 부위에서 강한 신호를 가짐을 의미]. 이후 적대적 이미지와 정상 이미지 간의 점수 차이가 가장 큰 상위 K개의 특징을 '공격 관련 특징'으로 선정한다.
실제 탐지 시에는 입력 이미지 x가 주어졌을 때, 선정된 K개의 특징 중 활성화된 개수 N(x)를 측정한다. [입력 벡터 투영 → K개 특징의 활성화 여부 확인 → 활성화 개수 합산 → 공격 징후 수치화]. 이 수치가 정상 데이터셋에서 설정한 임계값(Threshold)을 초과하면 적대적 공격으로 간주하여 차단한다.
관련 Figure

VLM의 중간 레이어에 SAE를 삽입하여 정상 이미지와 적대적 이미지의 특징 활성화 패턴 차이를 분석하고, 이를 통해 공격을 탐지하는 과정을 시각화했다. 정상 이미지는 적은 수의 특징만 활성화되는 반면, 공격 이미지는 많은 수의 공격 관련 특징을 활성화시킨다.
SAEgis의 전체 워크플로우를 보여주는 다이어그램이다.
주요 결과
실험 결과, SAEgis는 Qwen2.5-VL 모델을 기반으로 한 다양한 벤치마크에서 뛰어난 성능을 보였다. In-domain 설정에서는 97% 이상의 F1-score를 기록하며 기존 탐지 기법들과 대등하거나 우수한 성능을 보였다. 특히 중요한 성과는 Cross-domain 실험에서 나타났는데, 일반 이미지로 학습하고 의료 이미지(Medical)에서 테스트했을 때 기존 Dense baseline은 정밀도가 70%대로 급락한 반면, SAEgis는 90% 이상의 높은 정밀도와 재현율을 유지했다.
또한 여러 레이어의 신호를 결합하는 앙상블(Ensemble) 방식을 적용했을 때 탐지 안정성이 더욱 향상되었다. Vision Encoder의 초기 레이어는 고주파 노이즈 형태의 공격을 잘 잡아내고, Projection Layer와 같은 심층 레이어는 의미론적 왜곡을 수반하는 공격을 더 잘 포착하는 보완적 특성을 보였다.
관련 Figure

Vision Encoder의 초기 블록(vision-block0)과 Projection Layer(projection-mlp2)가 공격 탐지에 가장 효과적임을 보여준다. 이는 공격 신호가 시각적 저수준 특징과 언어 모델로 넘어가는 인터페이스 지점에 강하게 나타남을 시사한다.
VLM 내의 다양한 레이어 위치에 따른 SAE의 탐지 성능(Precision, Recall, F1) 그래프이다.
기술 상세
SAEgis는 VLM의 내부 표현이 적대적 섭동에 의해 선형적으로 분리 가능한 특정 방향으로 치우친다는 가설을 SAE의 희소 특징(Sparse Features)을 통해 실증했다. 연구진은 Qwen2.5-VL-3B 모델의 9개 위치에 SAE를 독립적으로 학습시켰으며, 각 SAE는 32,768개의 잠재 차원을 가지고 top-K=64의 희소성을 유지하도록 설계되었다.
기술적으로 가장 차별화되는 점은 'Difference-of-means' 방식을 통한 특징 선택이다. 복잡한 분류기를 추가 학습하는 대신, 정상과 공격 샘플 간의 활성화 점수 차이만을 이용하여 핵심 특징을 추출함으로써 연산 오버헤드를 최소화했다. 또한, 단일 레이어 탐지의 맹점(Blind spot)을 극복하기 위해 여러 레이어의 활성화 카운트를 평균 내는 단순하면서도 강력한 앙상블 전략을 채택하여 일반화 능력을 극대화했다.
한계점
테스트 데이터의 분포가 학습 및 임계값 설정에 사용된 데이터와 극심하게 다를 경우(Distribution Shift), 정상 이미지를 공격으로 오인하거나 그 반대의 경우가 발생할 수 있음을 한계로 명시했다.
실무 활용
VLM을 활용한 자율 에이전트나 보안이 중요한 이미지 분석 시스템에서 외부 공격으로부터 모델을 보호하는 실시간 방화벽으로 즉시 활용 가능하다.
- 금융/의료 분야 VLM 서비스의 입력 이미지 무결성 검사
- 자율주행 시스템의 시각 센서 데이터 오염 및 적대적 공격 실시간 감지
- 공공 안전용 AI 카메라의 기만 공격 방어
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.