핵심 요약
딥러닝 모델이 특정 이미지를 분류할 때 어떤 정보를 중요하게 여기고 어떤 정보를 무시하는지 파악하는 것은 모델의 신뢰성과 보안에 직결된다. 이 논문은 모델의 '무관심 영역(Null-space)'에 숨겨진 의미 정보를 텍스트와 이미지로 시각화하여, 모델이 배경에 의존하는지 아니면 핵심 특징을 놓치고 있는지 진단하는 강력한 도구를 제공한다.
왜 중요한가
딥러닝 모델이 특정 이미지를 분류할 때 어떤 정보를 중요하게 여기고 어떤 정보를 무시하는지 파악하는 것은 모델의 신뢰성과 보안에 직결된다. 이 논문은 모델의 '무관심 영역(Null-space)'에 숨겨진 의미 정보를 텍스트와 이미지로 시각화하여, 모델이 배경에 의존하는지 아니면 핵심 특징을 놓치고 있는지 진단하는 강력한 도구를 제공한다.
핵심 기여
SING 프레임워크 제안
분류기의 Null-space 기하학적 구조를 CLIP의 시각-언어 공간과 연결하여, 모델이 무시하는 특징에 대해 인간이 이해할 수 있는 자연어 설명과 시각적 예시를 생성한다.
모델 간 시맨틱 유출 비교 프로토콜
서로 다른 아키텍처(ResNet vs ViT)가 Null-space로 클래스 관련 정보를 얼마나 유출하는지 정량적으로 측정하는 지표를 도입하여 모델의 견고함을 평가한다.
Open-vocabulary 클래스 민감도 분석
특정 클래스가 배경, 색상 등 다양한 개념에 대해 가지는 민감도를 시스템적으로 조사하여 모델이 학습한 가짜 상관관계(Spurious correlation)를 발견한다.
핵심 아이디어 이해하기
신경망의 마지막 레이어는 고차원 특징 벡터를 클래스별 점수(Logit)로 변환하는 선형 매핑을 수행한다. 이때 수학적으로 'Null-space'라고 불리는 영역이 존재하는데, 이 영역 안에서 특징값이 변하더라도 최종 출력값은 전혀 바뀌지 않는다. 즉, 모델에게 이 영역의 변화는 '보이지 않는' 혹은 '무시되는' 정보이다.
SING은 이 Null-space에 어떤 의미가 담겨 있는지 밝히기 위해 SVD(특이값 분해)를 사용하여 무시되는 방향들을 추출한다. 그리고 이 방향들을 CLIP과 같은 멀티모달 모델의 임베딩 공간으로 투영하는 'Translator'를 학습시킨다. 이를 통해 모델이 무시하는 변화가 단순한 배경의 변화인지, 아니면 동물의 종을 결정하는 핵심 특징인지를 텍스트로 설명할 수 있게 된다.
결과적으로 ResNet50은 클래스 결정에 중요한 정보까지도 Null-space로 흘려보내는 경향이 있는 반면, 자기지도학습 기반의 DinoViT는 핵심 의미 정보를 더 잘 보존한다는 사실을 발견했다. 이는 모델이 단순히 정확도가 높다고 해서 내부적으로 올바른 특징을 보고 있는 것은 아님을 시사하며, 모델의 신뢰성을 평가하는 새로운 기준을 제시한다.
방법론
분류기의 마지막 완전 연결 계층 가중치 W에 대해 SVD를 수행하여 주공간(Principal space)과 영공간(Null-space)으로 분해한다. W = UΣV^T 연산을 통해 얻은 우특이 벡터 V를 기반으로, 출력에 영향을 주는 Vp와 영향을 주지 않는 Vn을 분리하여 각각의 프로젝터 Πp, Πn을 구축한다.
모델의 특징 공간 f에서 CLIP의 이미지 임베딩 공간 z_img로 매핑하는 선형 변환 연산자 T_Θ를 학습시킨다. 입력 특징 f를 넣었을 때 T_Θ(f)가 실제 CLIP 이미지 임베딩과 일치하도록 MSE 손실 함수를 최소화하며, 이는 [특징 벡터 → 선형 행렬 곱 → CLIP 공간 벡터] 과정을 거쳐 의미적 해석의 교두보 역할을 한다.
특정 개념(예: '낙타')에 대한 CLIP 텍스트 임베딩 z_text와의 유사도 그래디언트를 계산하고, 이를 Πn을 통해 Null-space로 투영한다. [특징 벡터와 텍스트 임베딩 사이의 각도 차이를 입력으로] → [원본 특징과 Null-space가 제거된 특징의 각도 차이를 뺄셈 연산하여] → [Attribute Score(AS) 값을 얻고] → [이 값이 클수록 모델이 해당 의미 정보를 무시하고 있었다는 의미]로 해석한다.
주요 결과
DinoViT, ResNet50 등 5개 모델을 대상으로 1,000개의 ImageNet 클래스에 대해 분석을 수행했다. 실험 결과, DinoViT는 Null-space 내에서 클래스 관련 정보 유출(AS)이 가장 적으면서도 배경 등 허용된 변화(Image Score, IS)에 대한 내성이 가장 높은 최적의 트레이드오프를 보였다.
ResNet50은 특정 클래스(예: 고슴도치, 스포츠카)에서 클래스 결정에 중요한 시맨틱 정보가 Null-space로 많이 유출되는 불균형을 보였다. 이는 모델이 해당 클래스를 분류할 때 핵심 특징보다는 다른 부차적인 정보에 의존할 가능성이 높음을 시사한다.
UnCLIP을 이용한 시각화 실험에서, Null-space 방향으로 특징을 변형했을 때 모델의 예측값은 고정된 상태에서 이미지의 배경이나 질감만 바뀌는 '양성 불변성'과, 객체의 형태 자체가 바뀌어버리는 '문제적 불변성'을 시각적으로 확인하여 모델의 취약점을 진단했다.
실무 활용
모델이 특정 도메인에서 신뢰할 수 있는지 진단하고, 학습 데이터의 편향으로 인한 가짜 상관관계를 파악하는 디버깅 및 감사 도구로 활용 가능하다.
- 모델 배포 전 특정 클래스에 대한 시맨틱 취약성(Adversarial vulnerability) 진단
- 데이터셋 내의 배경 편향(Background bias)이 모델 결정에 미치는 영향 분석
- 서로 다른 아키텍처의 시맨틱 보존 능력을 비교하여 실무 환경에 최적화된 백본 모델 선택
기술 상세
SING은 분류기의 마지막 레이어 W의 영공간(Null-space)이 모델이 무시하는 불변성(Invariants)을 정의한다는 점에 착안한다. W의 계수(Rank)가 r일 때, m-r 차원의 영공간이 존재하며 이 공간 내의 모든 섭동 ν는 W(f + ν) = Wf를 만족하여 로짓을 변화시키지 않는다.
특징 공간과 CLIP 공간 사이의 Translator T는 단순한 선형 매핑으로도 충분한 성능을 냄을 입증했다. 3-4레이어 MLP와 비교했을 때 선형 모델의 코사인 유사도가 약 0.89로 큰 차이가 없었으며, 이는 모델의 특징 공간과 CLIP 공간 사이에 강한 선형적 상관관계가 존재함을 시사한다.
제안된 지표인 Attribute Score(AS)는 특정 텍스트 프롬프트와 이미지 특징 사이의 각도 변화를 측정한다. AS = ∠(T(f), z_text) - ∠(T(f_equivalent), z_text) 연산을 통해, Null-space 제거 전후로 특정 의미가 얼마나 가까워졌는지 정량화하여 정보 유출 정도를 파악한다.
시각화를 위해 UnCLIP(Karlo-v1.0.alpha)을 사용하며, 확산 과정의 확률성을 제거하기 위해 고정된 노이즈 시드를 사용한다. 이를 통해 생성된 이미지 간의 시각적 차이가 오직 분류기 특징 f의 변화에만 기인하도록 통제하여 분석의 정확도를 높였다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료