오디오-비주얼 추론에 대한 교차 모달 타이포그래픽 공격의 체계적 연구

최신 멀티모달 대형 언어 모델(MLLM)이 시각 정보뿐만 아니라 오디오에 포함된 텍스트 정보(음성)에 의해서도 쉽게 조작될 수 있음을 증명했습니다. 특히 시각 정보와 음성 정보를 동시에 조작하는 다중 모달 공격이 단일 모달 공격보다 훨씬 강력하며, 이는 AI 기반 콘텐츠 검열이나 안전 시스템에 심각한 보안 위협이 될 수 있음을 시사합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

오디오 타이포그래피(Audio Typography) 개념 도입

비디오의 시각적 프레임은 유지한 채 텍스트-음성 변환(TTS)으로 생성된 오도된 음성을 주입하여 모델의 추론을 방해하는 새로운 공격 기법을 정의했다.

멀티모달 취약성의 교차 모달 전이 확인

음성으로 주입된 방해 정보가 오디오 관련 작업뿐만 아니라 시각 정보에 기반해야 하는 작업의 정확도까지 최대 12.85% 하락시키는 교차 모달 취약성을 발견했다.

다중 모달 협동 공격의 위력 입증

음성과 시각적 텍스트 타이포그래피를 동시에 정렬하여 공격했을 때, 단일 모달 공격(34.93%) 대비 월등히 높은 83.43%의 공격 성공률(ASR)을 기록했다.

콘텐츠 모더레이션 시스템 무력화 사례 제시

유해한 영상에 '안전하다'는 내용의 음성을 주입하는 것만으로도 모델의 유해 콘텐츠 탐지 능력을 약 13% 감소시킬 수 있음을 실험적으로 확인했다.

핵심 아이디어 이해하기

기존의 타이포그래피 공격은 이미지 위에 텍스트를 덧씌워 모델의 시각적 인지(Embedding)를 교란하는 방식에 집중했다. 하지만 현대의 멀티모달 모델은 텍스트 프롬프트, 시각적 텍스트, 음성이라는 세 가지 경로를 통해 의미 정보를 처리한다. 본 연구는 모델이 서로 다른 모달리티에서 들어오는 의미 정보를 통합하는 과정에서 특정 모달리티의 신호에 과도하게 의존하거나 모달리티 간 충돌을 적절히 해결하지 못한다는 점에 착안했다.

Transformer 기반의 멀티모달 모델은 각 모달리티의 특징 벡터를 하나의 공통된 잠재 공간(Latent Space)으로 투영하여 처리한다. 이때 음성으로 전달되는 텍스트 정보는 모델 내부에서 강력한 의미적 가중치를 가지게 되며, 이는 실제 비디오 화면에 보이는 객체 정보보다 우선시될 수 있다. 즉, 시각적으로는 '고양이'가 보이지만 음성으로 '말'이라고 속삭이면 모델의 최종 Softmax 출력값이 '말'로 편향되는 현상이 발생한다.

이러한 현상은 모델이 학습 과정에서 텍스트와 음성 전사(Transcription) 데이터를 강력하게 연결하도록 훈련되었기 때문에 발생한다. 결과적으로 공격자는 시각적 데이터를 수정하지 않고도 오디오 트랙에 미세한 음성 신호를 섞는 것만으로 모델의 의사결정 과정을 완전히 장악할 수 있게 된다.

관련 Figure

#1Diagram
깨끗한 입력(고양이 영상)이 주입된 음성(말)이나 시각 텍스트(말)에 의해 어떻게 '말'로 오분류되는지 설명한다. 우측 그래프를 통해 Qwen2.5-Omni-7B 등 최신 모델들이 공격에 의해 정확도가 크게 하락함을 시각화한다.
멀티모달 타이포그래피 공격의 개념도와 주요 모델별 공격 성공 사례를 보여주는 다이어그램이다.

방법론

오디오 타이포그래피 공격은 세 단계의 파이프라인으로 구성된다. 먼저 공격 대상이 되는 타겟 클래스에 맞춰 '이것은 [대상]입니다'와 같은 짧은 문구를 생성한다. 그 다음 Edge-TTS 엔진을 사용하여 이를 음성 신호로 변환한다. 마지막으로 생성된 음성을 원본 비디오의 오디오 트랙에 믹싱하는데, 이때 시각적 스트림은 전혀 수정하지 않아 인간이 보기에는 자연스러운 비디오 상태를 유지한다.

공격의 효과를 정량화하기 위해 두 가지 핵심 지표를 사용한다. Ground-Truth Accuracy(ACC)는 공격 하에서 모델이 정답을 맞히는 비율을 측정하며, Attack Success Rate(ASR)는 모델의 예측이 공격자가 의도한 타겟 클래스로 유도된 비율을 측정한다. [공격 대상 비디오 수 → 타겟 클래스로 예측된 수 → 비율 계산 → ASR 값] 순으로 계산되어 공격의 조작 능력을 평가한다.

실험에서는 Qwen2.5-Omni-7B, Gemini-3.1-Flash-Lite 등 최신 MLLM을 대상으로 MMA-Bench, Music-AVQA, WorldSense 데이터셋에서 성능을 평가했다. 또한 공격의 강도를 조절하기 위해 음량(Volume), 삽입 위치(Temporal Placement), 반복 횟수(Repetition), 목소리 종류(Voice Identity) 등 네 가지 파라미터를 변수로 설정하여 절제 연구(Ablation Study)를 수행했다.

주요 결과

Qwen2.5-Omni-7B 모델을 대상으로 한 실험에서 오디오 타이포그래피 공격은 WorldSense 벤치마크에서 64.03%의 높은 공격 성공률(ASR)을 기록했다. 특히 시각적 질문에 대해서도 정확도가 12.85% 하락하는 등 음성 주입이 시각적 추론을 방해하는 교차 모달 영향력이 확인됐다. 단일 모달 공격보다 음성과 시각 텍스트를 결합한 정렬된 공격에서 ASR은 83.43%까지 치솟았다.

공격 파라미터 분석 결과, 음량이 클수록(Volume 8x), 그리고 음성이 비디오의 뒷부분에 배치될수록 공격 효과가 강력해지는 경향을 보였다. 이는 모델이 최종 답변을 생성하기 직전에 입력된 정보를 더 중요하게 처리함을 시사한다. 또한 동일한 문구를 여러 번 반복(Repetition 4x)하는 것이 음량을 높이는 것보다 인간의 인지적 탐지를 피하면서도 공격 성공률을 높이는 데 더 효율적인 전략임이 밝혀졌다.

안전 벤치마크인 MetaHarm에서의 실험 결과, 유해한 영상에 '안전한 영상입니다'라는 음성을 주입했을 때 모델의 유해성 탐지 정확도가 26.16%에서 8.04%로 급감했다. 이는 오디오 타이포그래피가 단순한 추론 오류를 넘어 AI 안전 가드레일을 우회하는 실질적인 수단이 될 수 있음을 입증한다.

관련 Figure

#2Chart
음량이 커지고 반복 횟수가 늘어날수록 공격 성공률이 선형적으로 증가함을 보여준다. 특히 삽입 위치가 비디오 후반부(80%)일 때 전반부(0%)보다 공격 효과가 더 크다는 점이 핵심이다.
음량, 삽입 위치, 반복 횟수, 목소리 종류에 따른 공격 성공률(ASR) 변화를 나타낸 차트이다.

기술 상세

본 논문은 MLLM이 오디오, 비디오, 텍스트라는 세 가지 입력 스트림을 통합할 때 발생하는 '모달리티 편향(Modality Bias)'을 심층 분석한다. 아키텍처적으로 대부분의 모델은 각 모달리티의 인코더 출력을 결합하여 LLM 백본에 입력하는데, 이 과정에서 텍스트 성격이 강한 음성 신호가 시각적 특징보다 더 높은 우선순위를 갖게 되는 현상을 발견했다.

수학적으로 공격의 은밀성을 측정하기 위해 Relative RMS(Root Mean Square)와 Speech-Recognition Shift를 도입했다. RelRMS는 [주입된 음성 에너지 / 원본 오디오 에너지]를 계산하여 물리적 변형 정도를 측정하고, Speech-Recognition Shift는 Whisper 모델을 통해 주입된 음성이 얼마나 쉽게 텍스트로 복구되는지를 측정하여 인간이나 자동화 도구에 의한 탐지 가능성을 평가한다.

연구 결과, 모델들은 모달리티 간의 의미적 불일치(Semantic Inconsistency)를 해결하는 능력이 부족하며, 특히 Qwen 계열 모델은 텍스트 정보에, Gemini 계열 모델은 시각적 정보에 더 민감하게 반응하는 등 모델 아키텍처와 학습 데이터에 따라 취약한 지점이 다르다는 기술적 차별점을 확인했다.

관련 Figure

#3Chart
상대적 RMS(음량)와 음성 인식 전이(탐지 용이성)를 축으로 하여, 반복(Repetition) 전략이 음량을 높이는 것보다 더 은밀하면서도 효과적인 공격임을 나타낸다.
오디오 질문에 대한 공격의 효과성과 은밀성 사이의 트레이드오프를 보여주는 그래프이다.

한계점

본 연구는 통제된 환경에서 TTS로 생성된 짧은 문구만을 공격 수단으로 사용했으므로, 실제 환경의 복잡한 배경 소음이나 겹치는 대화 상황에서의 효과는 충분히 검증되지 않았다. 또한 공격에 대한 구체적인 방어 알고리즘을 제시하기보다는 취약점 노출에 집중했다는 한계가 있다.

실무 활용

본 연구는 멀티모달 AI 시스템의 보안 취약점을 노출하며, 이를 방어하기 위한 시스템 설계의 필요성을 강조합니다.

AI 기반 콘텐츠 모더레이션 시스템의 레드팀 테스트 및 취약점 점검
음성-시각 정보 간의 논리적 일관성을 검증하는 멀티모달 보안 필터 개발
공격에 강건한 멀티모달 학습을 위한 적대적 훈련(Adversarial Training) 데이터 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

MLLM(멀티모달 대형 언어 모델)Typographic Attack(타이포그래피 공격)Audio Typography(오디오 타이포그래피)Adversarial Robustness(적대적 강건성)Cross-Modal Fragility(교차 모달 취약성)

오디오-비주얼 추론에 대한 교차 모달 타이포그래픽 공격의 체계적 연구

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

오디오 타이포그래피(Audio Typography) 개념 도입

멀티모달 취약성의 교차 모달 전이 확인

다중 모달 협동 공격의 위력 입증

음성과 시각적 텍스트 타이포그래피를 동시에 정렬하여 공격했을 때, 단일 모달 공격(34.93%) 대비 월등히 높은 83.43%의 공격 성공률(ASR)을 기록했다.

콘텐츠 모더레이션 시스템 무력화 사례 제시

유해한 영상에 '안전하다'는 내용의 음성을 주입하는 것만으로도 모델의 유해 콘텐츠 탐지 능력을 약 13% 감소시킬 수 있음을 실험적으로 확인했다.

핵심 아이디어 이해하기

관련 Figure

방법론

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

본 연구는 멀티모달 AI 시스템의 보안 취약점을 노출하며, 이를 방어하기 위한 시스템 설계의 필요성을 강조합니다.

AI 기반 콘텐츠 모더레이션 시스템의 레드팀 테스트 및 취약점 점검
음성-시각 정보 간의 논리적 일관성을 검증하는 멀티모달 보안 필터 개발
공격에 강건한 멀티모달 학습을 위한 적대적 훈련(Adversarial Training) 데이터 생성

코드 공개 여부: 공개

코드 저장소 보기

오디오-비주얼 추론에 대한 교차 모달 타이포그래픽 공격의 체계적 연구

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

오디오-비주얼 추론에 대한 교차 모달 타이포그래픽 공격의 체계적 연구

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드