핵심 요약
의료용 시각 언어 모델(VLM)이 실제 임상 현장에서 오진을 유도할 수 있는 보안 취약점을 발견했습니다. 기존 공격과 달리 진단에 중요하지 않은 배경 영역에 미세한 노이즈를 주입하여 모델의 시각적 주의력을 분산시킴으로써, 전문가도 알아채기 힘든 수준에서 치명적인 오진을 유도할 수 있음을 입증했습니다.
왜 중요한가
의료용 시각 언어 모델(VLM)이 실제 임상 현장에서 오진을 유도할 수 있는 보안 취약점을 발견했습니다. 기존 공격과 달리 진단에 중요하지 않은 배경 영역에 미세한 노이즈를 주입하여 모델의 시각적 주의력을 분산시킴으로써, 전문가도 알아채기 힘든 수준에서 치명적인 오진을 유도할 수 있음을 입증했습니다.
핵심 기여
MedFocusLeak 프레임워크 제안
의료 영상의 비진단적 배경 영역에 좌표화된 섭동을 주입하고 Attention-distraction 메커니즘을 사용하여 모델의 초점을 병변 부위에서 멀어지게 만드는 블랙박스 공격 기법이다.
높은 전이성 및 비인지성 달성
대리 모델에서 생성된 공격이 GPT-5, Gemini 2.5 Pro 등 폐쇄형 모델을 포함한 6종의 다양한 VLM에 효과적으로 전이됨을 확인했으며, 의료 전문가가 육안으로 식별하기 어려운 수준의 이미지 품질을 유지했다.
통합 평가 프레임워크 및 MTS 지표 도입
공격 성공률과 이미지 충실도를 동시에 측정하는 Medical Text Adversarial Score(MTS)를 도입하여 현대 의료용 VLM의 추론 능력에 있는 치명적인 약점을 체계적으로 분석했다.
핵심 아이디어 이해하기
Deep Learning 모델, 특히 Vision-Language Model은 이미지 내의 특정 픽셀들이 텍스트 출력에 미치는 영향력을 계산하는 Attention Mechanism에 의존한다. 기존의 적대적 공격은 주로 이미지 전체에 노이즈를 섞어 출력을 직접 바꾸려 했으나, 이는 의료 영상처럼 색상 폭이 좁은 데이터에서 시각적 왜곡이 심하게 나타나 임상의에게 쉽게 발각되는 한계가 있었다.
이 논문은 모델이 진단을 내릴 때 병변(Foreground)뿐만 아니라 주변 배경(Background) 정보에도 Attention을 할당한다는 점에 착안했다. MedSAM을 이용해 진단에 필수적인 영역을 마스킹하여 보호하고, 대신 아무런 정보가 없는 배경 영역에만 미세한 계산된 노이즈를 주입한다. 이 노이즈는 모델의 Attention 분포를 병변이 아닌 배경 쪽으로 강제로 끌어당기는 '미끼' 역할을 수행한다.
결과적으로 모델은 실제 병변이 존재함에도 불구하고, 공격자가 의도한 배경 노이즈에 현혹되어 '정상'을 '암'으로, 혹은 '암'을 '정상'으로 판단하게 된다. 이는 모델의 내부 추론 로직 자체를 교란하는 방식으로, 픽셀 값의 미세한 변화(L-infinity norm)만으로도 논리적으로 그럴듯하지만 의학적으로는 완전히 틀린 진단 보고서를 생성하게 만든다.
방법론
MedFocusLeak은 크게 네 단계로 구성된다. 첫째, MedSAM을 활용해 영상 내 주요 임상 부위를 감지하고 마스킹하여 적대적 수정이 비진단적 배경 영역에만 국한되도록 제한한다. 둘째, GPT-4.0을 사용하여 원본 진단과 상반되지만 임상적으로 그럴듯한 '적대적 텍스트'를 생성하고 이를 이미지 섭동 최적화의 가이드로 삼는다.
셋째, 배경 제약적 섭동(Background Constrained Perturbation)을 수행한다. [입력 이미지 I와 마스크 Mk를 입력으로] → [I + Mk ⊙ δ 연산을 수행해] → [적대적 이미지 Iadv를 얻고] → [이 이미지가 대리 모델 앙상블에서 타겟 텍스트와 높은 코사인 유사도를 갖도록 가중치 δ를 갱신한다]. 이 과정에서 동적 프로그래밍을 통해 배경 내에서 가장 큰 패치 영역을 찾아 공격 효율을 극대화한다.
넷째, Attention Distraction Loss를 적용한다. [모델 내부의 Cross-Attention 맵 h를 입력으로] → [배경 영역의 Attention 합 Abg와 전경 영역의 합 Afg의 로그 비율을 계산해] → [Lattn = log(Afg) - log(Abg) 값을 얻고] → [이 손실 함수를 최소화함으로써 모델의 시각적 주의력을 전경에서 배경으로 강제 전이시킨다].
관련 Figure

적대적 텍스트 생성, 멀티모달 표현 학습, 배경 제약적 최적화 및 Attention Shift Loss 적용 과정을 시각화합니다. 이 구조가 어떻게 전경의 임상 정보를 보존하면서 배경 노이즈만으로 모델을 기만하는지 보여줍니다.
MedFocusLeak 프레임워크의 전체 워크플로우 다이어그램

원본 이미지에서 MedSAM을 통해 전경을 분리하고, 남은 배경 영역에서 최적의 공격 패치를 선정하는 과정을 보여줍니다. 이 단계가 시각적 비인지성을 확보하는 핵심임을 설명합니다.
의료 영상의 세그멘테이션 및 배경 패치 추출 과정 예시
주요 결과
GPT-5, Gemini 2.5 Pro, InternVL-8B 등 6개의 주요 VLM을 대상으로 실험한 결과, MedFocusLeak은 모든 모델에서 기존 기법을 압도하는 성능을 보였다. 특히 GPT-5에서 Medical Attack Score(MAS) 0.408을 기록하며 기존 최강 베이스라인(0.225) 대비 두 배 가까운 공격 성공률을 달성했다. InternVL에서는 0.672의 MAS를 기록했다.
이미지 품질 측면에서도 Med-CLIP 기반 유사도(AvgSim)가 0.85 이상을 유지하여, 공격이 가해진 후에도 의료 전문가가 원본과 구별하기 힘들 정도의 높은 충실도를 보였다. Ablation Study를 통해 Attention Shift 메커니즘을 제거했을 때 Qwen 모델의 MTR(Medical Text Adversarial Score)이 0.740에서 0.585로 급감함을 확인하여, 주의력 분산 기법이 공격 전이성에 핵심적인 역할을 함을 증명했다.
관련 Figure

MedFocusLeak(Ours)이 표준적인 이미지 방어 기법들 하에서도 기존 M-Attack 대비 훨씬 높은 MTR과 AvgSim을 유지함을 입증합니다. 이는 제안된 공격의 실질적인 강력함을 나타냅니다.
다양한 방어 기법(Gaussian, JPEG 등) 하에서의 공격 성능 비교 차트
기술 상세
본 연구는 의료 도메인 특유의 '좁은 팔레트' 특성 때문에 발생하는 시각적 왜곡 문제를 해결하기 위해 배경 영역만을 타겟팅하는 전략을 취한다. 아키텍처적으로는 CLIP 기반의 4가지 변형 모델(ViT-L/14, ViT-B/16 등)을 앙상블 대리 모델로 사용하여 특정 아키텍처에 오버피팅되지 않는 범용적인 적대적 섭동을 생성한다.
수학적으로는 섭동 δ를 L-infinity norm 제약 조건(epsilon=16/255) 하에서 최적화하며, 단순한 출력 변조가 아닌 모델 내부의 'Semantic Attention' 구조를 파괴하는 데 집중한다. 이는 모델이 서로 다른 아키텍처를 가졌더라도 유사한 시각적 특징에 Attention을 할당한다는 전이성 원리를 이용한 것이다. 또한, 제안된 MTS 지표는 LLM-as-a-judge 프레임워크를 활용하여 생성된 진단 텍스트의 의학적 오류 정도를 정밀하게 수치화한다.
한계점
배경 영역이 극도로 제한적인 이미지(예: 병리 슬라이드 전체가 조직으로 덮인 경우)에서는 공격 효과가 감소할 수 있습니다. 또한, 공격의 성공이 배경을 정확히 분리해내는 세그멘테이션 모델(MedSAM 등)의 성능에 의존한다는 한계가 있습니다.
실무 활용
의료 AI 시스템의 취약점을 점검하고 더 강력한 방어 체계를 구축하기 위한 레드팀 도구로 활용될 수 있습니다. 특히 블랙박스 환경에서도 높은 전이성을 보이므로, 상용 폐쇄형 의료 AI 서비스의 안전성 검증에 필수적입니다.
- 의료용 VLM의 적대적 공격에 대한 견고성(Robustness) 벤치마킹
- 임상 의사결정 지원 시스템(CDSS)의 보안 취약점 진단 및 레드팀 테스트
- 적대적 학습(Adversarial Training)을 통한 의료 AI 모델의 방어 성능 강화
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

원본 영상에서는 '악성 종양'으로 정확히 진단되던 것이, 배경 공격 후에는 '섬유선종(양성)'으로 잘못 진단되는 과정을 텍스트와 함께 보여줍니다. 붉은색으로 표시된 오진 텍스트가 공격의 위험성을 직접적으로 드러냅니다.
유방 촬영술(Mammogram) 영상에 대한 실제 공격 사례 및 진단 결과 비교
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.