핵심 요약
딥러닝 모델이 단 몇 개의 가중치 비트 반전만으로도 완전히 붕괴될 수 있다는 치명적인 보안 취약점을 노출했다. 데이터나 복잡한 최적화 과정 없이 가중치 크기만 분석하여 공격 대상을 찾아내므로, 자율주행이나 금융 시스템 등 안전이 중요한 AI 서비스에 심각한 위협이 된다.
왜 중요한가
딥러닝 모델이 단 몇 개의 가중치 비트 반전만으로도 완전히 붕괴될 수 있다는 치명적인 보안 취약점을 노출했다. 데이터나 복잡한 최적화 과정 없이 가중치 크기만 분석하여 공격 대상을 찾아내므로, 자율주행이나 금융 시스템 등 안전이 중요한 AI 서비스에 심각한 위협이 된다.
핵심 기여
DNL(Deep Neural Lesion) 공격 기법
데이터나 최적화 과정 없이 모델 가중치의 크기(Magnitude)와 계층 위치만으로 치명적인 '임계 파라미터'를 식별하는 경량 공격 방법론이다.
1P-DNL(1-Pass DNL) 강화 공격
무작위 입력에 대한 단 한 번의 순전파와 역전파를 통해 얻은 그래디언트 정보를 활용하여 공격의 정밀도와 파괴력을 극대화했다.
범도미인 취약성 입증
이미지 분류(ResNet), 객체 탐지(YOLOv8), 인스턴스 분할(Mask R-CNN)뿐만 아니라 최신 추론형 언어 모델(Qwen3 MoE)까지 동일한 취약점을 공유함을 증명했다.
선택적 방어 메커니즘 제안
DNL이 식별한 극소수의 취약한 비트들만 복제하거나 오류 정정 코드(ECC)로 보호함으로써 효율적으로 공격을 방어할 수 있음을 보였다.
핵심 아이디어 이해하기
신경망의 가중치는 IEEE 754 부동 소수점 형식으로 저장되며, 이 중 가장 앞의 부호 비트(Sign Bit)는 값의 방향을 결정한다. 초기 계층의 가중치는 이미지의 에지(Edge)나 텍스트의 기본 구조를 파악하는 핵심 필터 역할을 하는데, 이 필터의 부호가 바뀌면 모델은 입력 데이터의 기초적인 특징부터 잘못 해석하게 된다.
기존의 가중치 공격은 많은 데이터와 반복적인 최적화 연산이 필요했지만, 본 논문은 '큰 가중치일수록 모델 출력에 미치는 영향력이 크다'는 직관에 집중했다. 특히 초기 계층에 존재하는 큰 가중치의 부호를 반전시키면, 그 오류가 후속 계층을 거치며 기하급수적으로 증폭되어 결국 모델의 최종 판단을 완전히 망가뜨리는 '뇌 손상' 효과를 일으킨다.
이러한 원리는 최신 MoE(Mixture-of-Experts) 모델에서도 동일하게 작동한다. 특정 전문가 네트워크의 핵심 가중치 단 2개만 반전시켜도, 해당 전문가를 거치는 모든 정보가 오염되어 모델은 의미 없는 문장을 반복하거나 추론 능력을 완전히 상실하게 된다. 이는 AI 모델의 견고함이 생각보다 매우 취약한 기반 위에 있음을 시사한다.
관련 Figure

단 하나의 가중치 부호 비트를 반전시켰을 뿐인데, 에지 검출 필터가 완전히 망가져 출력 피처맵이 원본과 판이하게 달라짐을 보여준다. 이 초기 단계의 오류가 모델 전체의 인식 능력을 붕괴시키는 시발점이 된다.
RegNetY-400MF 모델의 첫 번째 컨볼루션 커널 비트 반전 전후의 피처맵 비교
방법론
공격자는 모델 가중치에 대한 쓰기 권한은 있지만 학습 데이터나 추론 결과에는 접근할 수 없다고 가정한다. DNL 공격은 모델의 초기 L개 계층(통상 10개)에서 절대값이 가장 큰 가중치 k개를 선택한다. CNN의 경우 동일한 커널 내에서 오류가 상쇄되는 것을 막기 위해 커널당 최대 1개의 비트만 반전시키는 제약 조건을 적용한다.
1P-DNL은 더 강력한 버전으로, 무작위 입력값 z를 모델에 넣고 손실 함수 R(theta)의 합계를 계산한다. 이후 한 번의 역전파를 통해 각 가중치 theta_i에 대한 그래디언트 g_i와 헤시안(Hessian)의 대각 성분 H_ii를 근사 계산한다. [입력값 z → 순전파 및 역전파 → g_i 및 H_ii 획득 → 중요도 점수 S(theta_i) 산출] 과정을 거친다.
중요도 점수 S(theta_i)는 가중치 크기와 2차 테일러 전개(Taylor Expansion) 기반의 민감도를 결합하여 계산한다. [가중치 크기 |theta_i|와 곡률 정보 H_ii * theta_i^2의 합산 → 점수 산출 → 상위 k개 비트 반전] 순으로 진행된다. 이 점수가 높을수록 해당 비트를 반전시켰을 때 모델의 손실 값이 가장 크게 증가함을 의미한다.
주요 결과
ResNet-50 모델의 경우, ImageNet 데이터셋에서 단 2개의 부호 비트만 반전시켰음에도 정확도가 99.8% 하락하여 사실상 모델이 붕괴되었다. 객체 탐지 모델인 Mask R-CNN과 YOLOv8-seg 역시 백본 네트워크에서 1~2개의 비트 반전만으로 COCO 데이터셋의 탐지 성능(AP)이 0에 수렴하는 결과를 보였다.
언어 모델인 Qwen3-30B-A3B-Thinking(MoE 구조)에서는 서로 다른 전문가 네트워크에 속한 비트 2개를 반전시킨 결과, MATH-500 벤치마크 정확도가 78%에서 0%로 급락했다. 모델은 의미 있는 답변 대신 특정 문구를 무한 반복하는 증상을 보였다.
방어 실험에서는 전체 파라미터의 단 0.001%에 해당하는 취약 비트들만 선택적으로 보호했을 때, 기존의 강력한 비트 반전 공격(BFA)에 대한 저항력이 획기적으로 향상됨을 확인했다. ResNet-18의 경우 1%의 파라미터만 보호해도 공격에 의한 성능 저하를 거의 완벽하게 차단할 수 있었다.
관련 Figure

단순 무작위 비트 반전은 효과가 거의 없지만, 본 논문이 제안한 DNL과 1P-DNL은 가중치 크기 기반 전략보다 훨씬 강력하게 모델 성능을 하락시킨다. 특히 1P-DNL은 단 10개의 비트만으로 대부분의 모델을 완전히 붕괴시킨다.
다양한 공격 전략에 따른 ImageNet 모델의 정확도 감소(mAR10) 비교
기술 상세
DNL 공격은 모델의 초기 레이어가 범용적인 특징 추출(에지, 질감 등)을 담당하며, 여기서 발생한 미세한 오류가 심층부로 갈수록 증폭된다는 신경과학적 비유와 립시츠 연속성(Lipschitz continuity) 개념에 기반한다. 수학적으로는 손실 함수의 2차 테일러 근사를 통해 가중치 변화에 따른 손실 변화량 Delta R을 2 * theta_i^2 * H_ii로 정의하고, 이를 최대화하는 인덱스를 찾는다.
1P-DNL은 가우스-뉴턴(Gauss-Newton) 근사를 사용하여 헤시안 대각 성분 H_ii를 그래디언트의 제곱으로 대체함으로써 연산 복잡도를 O(theta) 수준으로 유지한다. 이는 기존의 반복적 최적화 공격들이 O(k * B * theta * m)의 복잡도를 가졌던 것과 비교해 비약적으로 효율적이다.
MoE 아키텍처에서의 취약성은 라우팅 메커니즘의 특성에서 기인한다. 특정 전문가의 출력값이 비트 반전으로 인해 비정상적으로 커지면, 어텐션 메커니즘을 통해 이 오염된 표현이 전체 시퀀스로 전파된다. 이는 단일 전문가의 손상이 전체 모델의 추론 궤적을 이탈시키는 '독성 전파' 현상을 유도한다.
한계점
공격자가 모델의 저장된 파라미터를 직접 수정할 수 있는 권한이 있어야 한다는 전제가 필요하다. 모델이 샤딩(Sharding)되어 있거나 메모리의 일부만 쓰기 가능한 환경에서는 공격의 효과가 제한될 수 있다.
실무 활용
AI 모델의 물리적 보안 및 무결성 검증의 중요성을 시사하며, 저비용으로 고효율의 보안 강화가 가능하다.
- 자율주행용 임베디드 모델의 하드웨어 레벨 비트 오염 방어
- 클라우드 서빙 모델의 가중치 무결성 실시간 모니터링
- 에지 디바이스 내 AI 모델을 위한 선택적 메모리 보호 구역(Secure Enclave) 설정
코드 공개 여부: 공개
코드 저장소 보기키워드
코드 예제
def dnl_attack(theta, k, L):
theta_L = parameters_in_first_L_layers(theta)
sorted_theta = sort_descending_by_magnitude(theta_L)
K = top_k_entries(sorted_theta)
# For CNNs: enforce at most one selected entry per kernel
for theta_i in K:
theta_i = -theta_i # flip sign bit
return thetaDNL(Deep Neural Lesion) Pass-free 공격의 핵심 로직을 구현한 의사코드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.