왜 중요한가
비전 트랜스포머(ViT)가 물체의 핵심 특징이 아닌 배경과 같은 허위 상관관계에 의존하여 판단하는 문제를 해결한다. 사람이 사물을 인식할 때처럼 '날개'나 '부리' 같은 세부 개념에 집중하도록 유도함으로써, 처음 보는 환경이나 변형된 이미지에서도 정확하게 분류할 수 있는 강건한 모델을 만든다.
핵심 기여
개념 가이드 파인튜닝(CFT) 프레임워크
모델의 내부 추론 과정을 배경이 아닌 의미 있는 객체 개념으로 유도하는 새로운 사후(post-hoc) 파인튜닝 방법론이다.
자동화된 개념 마스크 생성
수동 주석 없이 LLM과 VLM을 결합하여 클래스별 핵심 개념을 제안하고 이미지 내에서 자동으로 세그멘테이션 마스크를 생성한다.
데이터 효율적 학습
전체 데이터셋의 절반에 해당하는 클래스에서 클래스당 단 3장의 이미지만 사용하여 학습함에도 불구하고 높은 강건성 개선 효과를 보인다.
AttnLRP 기반 정렬
Transformer 구조에 최적화된 AttnLRP 기법을 활용해 모델의 relevance map을 개념 마스크와 정밀하게 일치시킨다.
핵심 아이디어 이해하기
현대의 Vision Transformer(ViT)는 ImageNet과 같은 표준 벤치마크에서 뛰어난 성능을 보이지만, 실제로는 물체 자체가 아닌 배경의 질감이나 주변 환경 같은 '허위 상관관계(Spurious Correlations)'에 의존하는 경우가 많다. 예를 들어 '새'를 인식할 때 새의 생김새보다 주변의 나뭇가지나 하늘 배경에 Attention을 집중하는 식이다. 이는 학습 데이터와 다른 분포의 데이터(OOD)가 입력될 때 모델 성능이 급격히 저하되는 근본적인 원인이 된다. CFT는 모델이 결정을 내릴 때 중요하게 생각하는 영역인 'Relevance Map'을 강제로 교정하는 방식을 취한다. 단순히 물체의 전체 실루엣(Foreground)을 강조하는 기존 방식과 달리, LLM을 통해 '부리', '날개'와 같은 세부적인 '의미적 개념(Semantic Concepts)'을 정의하고, VLM(Grounded SAM)을 이용해 이 개념들이 이미지의 어디에 위치하는지 마스크를 만든다. 이후 모델의 내부 Attention 메커니즘이 이 마스크 영역 내에서만 높은 가중치를 갖도록 유도한다. 이 과정에서 AttnLRP라는 기법을 사용하여 Transformer의 Attention 레이어와 MLP 블록을 통과하는 신호의 기여도를 정확히 계산한다. 모델은 이제 배경의 노이즈를 무시하고 객체를 정의하는 핵심 부위에 집중하는 법을 배우게 된다. 결과적으로 모델은 단순히 정답을 맞히는 것을 넘어, '왜 이 정답인지'에 대한 내부 논리 구조가 인간의 상식과 일치하게 변하며, 이는 다양한 변형 이미지에 대한 강력한 저항력으로 이어진다.
방법론
전체 프로세스는 개념 생성, 마스크 생성, 최적화의 3단계로 구성된다. 먼저 GPT-4o mini를 사용하여 각 클래스를 특징짓는 텍스트 속성들을 추출하고, 이를 Grounded SAM에 입력값으로 주어 이미지 내 해당 개념의 위치를 나타내는 이진 마스크 S(I)를 생성한다. [이미지 I와 클래스 속성 세트 입력 → Grounded SAM 연산 → 픽셀 단위 이진 마스크 출력 → 해당 개념이 존재하는 영역의 의미] 모델의 추론 근거를 추출하기 위해 AttnLRP 기법을 적용한다. 이는 출력층의 점수를 역전파하여 각 토큰의 기여도를 계산하는 방식으로, Transformer 구조에서 Attention 가중치와 중간 특징 표현의 크기를 결합하여 relevance map Φ(I)를 산출한다. [출력 스코어 입력 → 레이어별 기여도 역전파 연산 → relevance map 출력 → 각 픽셀이 예측에 미친 영향력의 정도] 학습 목적 함수는 정렬 손실(L_align)과 분류 일관성 손실(L_cls)의 합으로 정의된다. 정렬 손실은 개념 영역 내의 relevance를 최대화하는 L_concept와 배경 영역의 relevance를 억제하는 L_non-concept로 나뉜다. L_concept 식을 통해 개념 마스크 내부 픽셀의 relevance 값을 1에 가깝게 끌어올린다. [relevance map과 개념 마스크 입력 → 로그 스케일의 오차 계산 → 손실값 출력 → 모델이 개념 영역에 집중하지 않을수록 커지는 페널티] 분류 성능 저하를 막기 위해 기존 모델의 예측 분포를 유지하도록 하는 L_cls를 추가한다. 이는 정답 레이블 대신 원래 모델이 예측했던 확률 분포를 타겟으로 하는 Cross-Entropy를 계산하여, 파인튜닝 과정에서 모델의 기본 분류 능력이 붕괴되지 않도록 제약 조건을 건다. [현재 모델 출력과 원본 모델 출력 입력 → Cross-Entropy 연산 → 일관성 손실 출력 → 모델의 판단 기준이 급격히 변하는 것을 방지]
주요 결과
ImageNet-A(자연적 적대 예시), ObjectNet(배경/포즈 변형), ImageNet-R(예술적 표현) 등 5개의 OOD 벤치마크에서 기존 SOTA 기법인 GradMask, RRR, RRDA를 일관되게 상회하는 성능을 보였다. 특히 ViT-B 모델 기준 ImageNet-A에서 Top-1 정확도가 기존 13.26%에서 27.76%로 두 배 이상 향상되는 괄목할 만한 성과를 거두었다. Relevance Map 정렬 지표인 mIoU, mAP, PA 측면에서도 원본 모델 대비 큰 폭의 개선이 확인되었다. ViT-B의 경우 mIoU가 62.91에서 68.23으로 상승했으며, 이는 모델이 실제로 객체의 의미 있는 부분에 더 잘 집중하고 있음을 정량적으로 입증한다. 학습에 사용되지 않은 미보신(Unseen) 클래스에 대해서도 강건성 향상 효과가 전이됨을 확인했다. 이는 CFT가 특정 클래스의 특징을 암기하는 것이 아니라, 객체의 핵심 개념에 집중해야 한다는 일반적인 추론 원칙을 학습했음을 시사한다. Ablation Study를 통해 개념 기반 마스크가 단순한 전경-배경 마스크보다 훨씬 강력한 가이드 신호를 제공함을 증명했다. 또한 AttnLRP가 Gradient-Rollout이나 GradCAM보다 relevance 추출 및 최적화에 더 효과적임을 확인했다.
실무 활용
배경 노이즈가 심하거나 특이한 각도에서 촬영된 이미지를 처리해야 하는 실무 환경에서 ViT 모델의 신뢰성을 높이는 데 즉시 활용 가능하다. 특히 수동 라벨링 없이 LLM/VLM만으로 학습 데이터를 자동 생성할 수 있어 비용 효율적이다.
- 자율주행 시스템에서 기상 악화나 복잡한 도심 배경 속 객체 인식 정확도 향상
- 의료 영상 분석 시 병변과 무관한 장비 노이즈나 배경 조직의 영향을 최소화한 진단 보조
- 전자상거래 서비스에서 다양한 배경의 사용자 업로드 사진으로부터 정확한 상품 카테고리 분류
- 보안 관제 시스템에서 조명 변화나 가림 현상이 빈번한 환경의 객체 탐지 강건성 강화
기술 상세
CFT는 ViT의 내부 추론 메커니즘을 명시적으로 제어하기 위해 Attention-aware Layer-wise Relevance Propagation(AttnLRP)을 최적화 타겟으로 삼는다. 이는 단순 Gradient 기반 방식이 ViT에서 불안정하거나 부정확한 설명을 제공하는 한계를 극복하기 위함이다. 개념 추출 과정에서 GPT-4o mini를 활용해 클래스별 판별력 있는 속성을 생성한다. 이후 Grounded SAM을 통해 공간적 접지를 수행하며, 출현 빈도와 공간적 커버리지라는 두 가지 지표를 기준으로 유효한 개념만을 필터링하여 노이즈를 줄인다. 손실 함수 설계 시 배경 영역에 대한 억제(L_non-concept)에 더 높은 가중치(1.2)를 부여한다. 이는 모델이 허위 상관관계인 배경 정보에 의존하는 것을 방지하는 것이 강건성 확보의 핵심이라는 가설에 기반한다. 학습 효율성을 극대화하기 위해 ImageNet-1K 클래스의 절반에 대해서만 클래스당 3장의 이미지(총 1,500장)를 사용하는 Sparse Sampling 전략을 채택했다. 이러한 최소한의 감독으로도 전체 모델의 추론 편향을 교정할 수 있음을 보여주었다. 아키텍처 측면에서는 ViT뿐만 아니라 ConvNeXt-V2와 같은 CNN 기반 구조에도 적용 가능하도록 AttnLRP를 변형하여 적용했다. CNN의 경우 Attention Map 대신 중간 특징 맵의 활성화 크기를 활용하여 relevance를 계산한다.
한계점
LLM(GPT-4o mini)이 생성하는 개념 중 '공격적인 행동'과 같이 시각적으로 접지하기 어려운 추상적 개념은 Grounded SAM이 마스크를 생성하지 못해 학습 가이드로 활용될 수 없다. 또한 이미지 면적의 2% 미만을 차지하는 아주 작은 객체 부위의 경우 Grounded SAM의 인식률이 떨어져 정교한 가이드가 어려울 수 있다. 마지막으로 대규모 데이터셋에 대해 개념 마스크를 생성하는 전처리 과정에서 발생하는 연산 오버헤드가 존재한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.