핵심 요약
기존의 제로샷 이상 탐지는 주로 CLIP과 같은 시각-언어 모델에 의존해 왔으나, 순수 시각 기초 모델(VFM)의 잠재력은 충분히 활용되지 못했습니다. 이 논문은 VFM의 내부 표현을 효율적으로 조정하고 고품질 합성 데이터를 활용하여, 별도의 학습 이미지 없이도 산업 및 의료 현장에서 즉시 사용 가능한 수준의 이상 탐지 성능을 달성했습니다.
왜 중요한가
기존의 제로샷 이상 탐지는 주로 CLIP과 같은 시각-언어 모델에 의존해 왔으나, 순수 시각 기초 모델(VFM)의 잠재력은 충분히 활용되지 못했습니다. 이 논문은 VFM의 내부 표현을 효율적으로 조정하고 고품질 합성 데이터를 활용하여, 별도의 학습 이미지 없이도 산업 및 의료 현장에서 즉시 사용 가능한 수준의 이상 탐지 성능을 달성했습니다.
핵심 기여
AnomalyVFM 프레임워크 제안
사전 학습된 시각 기초 모델(VFM)을 제로샷 이상 탐지기로 변환하는 범용적이고 효과적인 프레임워크를 구축했다.
3단계 합성 데이터 생성 체계
FLUX와 같은 최신 생성 모델을 활용하여 다양한 객체, 사실적인 결함, 특징 기반 필터링을 거친 고품질 보조 데이터셋을 생성하는 기법을 도입했다.
매개변수 효율적 적응 메커니즘
LoRA 기반의 특징 어댑터와 신뢰도 가중치 픽셀 손실 함수를 통해 VFM의 내부 표현을 이상 탐지 작업에 최적화했다.
SOTA 성능 달성 및 범용성 입증
9개 산업 데이터셋에서 평균 AUROC 94.1%를 기록하며 기존 최고 성능을 3.3%p 경신했으며, 의료 영상 데이터셋에서도 우수한 일반화 성능을 보였다.
핵심 아이디어 이해하기
기존의 시각 기초 모델(VFM)은 이미지의 풍부한 시각적 특징을 추출하는 데 탁월하지만, 무엇이 '정상'이고 무엇이 '이상'인지에 대한 고수준의 개념적 이해가 부족하여 제로샷 이상 탐지에서 시각-언어 모델(VLM)에 뒤처져 왔다. 특히 VFM을 미세 조정할 때 단순히 출력 헤드만 학습시키는 얕은 적응 방식은 모델 내부의 강력한 표현력을 특정 도메인의 이상 징후와 연결하는 데 한계가 있었다.
AnomalyVFM은 이 문제를 해결하기 위해 모델의 내부 레이어에 직접 개입하는 LoRA(Low-Rank Adaptation) 어댑터를 삽입한다. 이는 Transformer의 Self-Attention 메커니즘 내에서 쿼리(Query)와 값(Value) 행렬에 저순위 행렬을 추가하여, 원래의 지식은 보존하면서도 이상 탐지에 필요한 미세한 시각적 변화에 민감하게 반응하도록 내부 표현을 진화시킨다.
또한, 학습에 필요한 '이상' 샘플의 부재를 해결하기 위해 최신 이미지 생성 모델로 가상의 결함 데이터를 대량 생성한다. 단순히 이미지를 만드는 것에 그치지 않고, 생성된 이미지와 원본 이미지 사이의 특징 차이를 분석하여 결함이 실제로 유의미하게 생성되었는지 검증하는 필터링 단계를 거침으로써 모델이 노이즈가 섞인 데이터로부터 잘못된 학습을 하지 않도록 보장한다.
방법론
전체 접근 방식은 고품질 합성 데이터 생성과 VFM의 매개변수 효율적 미세 조정으로 구성된다. 데이터 생성 단계에서는 GPT-4o를 사용하여 100개의 객체와 50개의 배경 목록을 생성하고, FLUX 모델을 통해 정상 이미지를 생성한 뒤 IS-Net으로 객체 마스크를 추출한다. 이후 결함 설명을 포함한 프롬프트로 특정 영역에 인페인팅(Inpainting)을 수행하여 이상 샘플을 만든다.
핵심 적응 메커니즘은 Transformer 백본의 각 블록에 LoRA 어댑터를 통합하는 것이다. 입력 특징 x에 대해 원래의 가중치 W와 별도로 저순위 행렬 A와 B의 곱(BAx)을 계산하여 더한다. [입력 특징 벡터 → 저순위 행렬 곱셈 → 잔차 연결 → 조정된 특징 추출] 과정을 통해 모델의 내부 가중치를 크게 바꾸지 않고도 이상 탐지 작업에 특화된 특징을 추출한다.
학습 손실 함수로는 Focal Loss와 L1 Loss를 결합한 베이스 손실에 신뢰도 가중치를 적용한 Confidence-weighted Pixel Loss를 사용한다. 디코더가 예측한 신뢰도 맵 c를 기반으로 C = 1 + exp(c)를 계산하여 손실 값에 곱한다. [예측 오차와 신뢰도 값 입력 → 가중치 적용 연산 → 최종 손실 산출 → 모호한 레이블의 영향력 감소] 과정을 거쳐 합성 데이터의 부정확한 마스크로 인한 성능 저하를 방지한다.
관련 Figure

생성된 결함들이 이미지 면적의 약 0.28%에서 11.24%까지 다양하게 분포하며, 평균 2.52%의 면적을 차지함을 보여준다. 이는 실제 산업 현장에서 발생하는 미세한 결함부터 큰 파손까지 폭넓게 커버하고 있음을 의미한다.
생성된 합성 데이터셋의 결함 면적 분포 히스토그램
주요 결과
산업용 이상 탐지 벤치마크인 MVTec AD, VisA 등 9개 데이터셋 평가 결과, RADIO 백본 기반의 AnomalyVFM은 이미지 레벨 AUROC 94.1%를 달성했다. 이는 기존 SOTA 모델인 Bayes-PFL(90.8%) 대비 3.3%p 향상된 수치이며, 픽셀 레벨 AUROC에서도 96.9%를 기록하여 정밀한 결함 국소화 능력을 입증했다.
Ablation Study를 통해 각 구성 요소의 기여도를 분석한 결과, 데이터 필터링 단계를 제거했을 때 이미지 레벨 AUROC가 3.8%p 하락하여 데이터 품질의 중요성을 확인했다. 또한 LoRA 어댑터를 사용하지 않고 출력 헤드만 학습시켰을 때보다 어댑터를 사용했을 때 성능이 크게 향상되어 내부 표현 적응의 효과를 증명했다.
추가적으로 의료 영상 데이터셋(HeadCT, BrainMRI 등)에서도 별도의 미세 조정 없이 평균 94.0%의 AUROC를 기록하며 강력한 제로샷 일반화 성능을 보였다. 추론 속도 면에서도 NVIDIA A100 GPU 기준 샘플당 20.5ms를 기록하여 경쟁 모델인 AdaCLIP(82.4ms)이나 Bayes-PFL(208.5ms)보다 월등히 빠른 성능을 나타냈다.
관련 Figure

RADIO, DINOv3, DINOv2 등 순수 시각 모델들이 AnomalyVFM 프레임워크를 통해 기존 VLM 기반 모델(WinCLIP, AdaCLIP 등)을 크게 앞지르는 것을 보여준다. 특히 특징 어댑터와 합성 데이터셋이 추가될수록 성능이 계단식으로 향상됨을 확인할 수 있다.
다양한 VFM 백본에 따른 AnomalyVFM의 이미지 및 픽셀 레벨 AUROC 성능 비교 그래프

Bayes-PFL이나 AdaCLIP에 비해 AnomalyVFM이 결함 부위를 훨씬 더 정밀하고 선명하게(sharper) 잡아내는 것을 볼 수 있다. 산업용 부품부터 의료 영상까지 다양한 도메인에서 정답지(Mgt)와 가장 유사한 결과를 생성한다.
AnomalyVFM과 기존 모델들의 이상 탐지 결과 시각화 비교
기술 상세
AnomalyVFM은 RADIO, DINOv2, DINOv3 등 다양한 Transformer 기반 VFM을 백본으로 사용할 수 있는 모델 불가지론적(Model-agnostic) 구조를 가진다. 각 Transformer 블록의 Attention 레이어 내 Query, Value, Output Projection 단계에 rank=64인 LoRA 어댑터를 삽입하여 특징을 재구성한다.
디코더 아키텍처는 가벼운 합성곱 신경망으로 설계되었으며, 두 개의 업샘플링 블록(Conv + GroupNorm + ReLU + Bilinear Upsampling)을 거쳐 최종적으로 이상 점수 맵(Mo)과 신뢰도 맵(c)을 출력한다. 이미지 레벨의 이상 점수(Ao)는 백본의 [CLS] 토큰을 선형 레이어에 통과시켜 예측한다.
합성 데이터 생성 시 RePaint 접근 방식을 사용하여 인페인팅 전용 모델 없이도 일반 확산 모델로 결함을 생성하며, DINOv2 특징 간의 코사인 유사도를 기반으로 한 거리 맵(Md)을 사용하여 생성된 결함의 유효성을 자동으로 검증한다. 학습은 AdamW 옵티마이저를 사용하여 500회 반복(Iteration)만으로도 충분한 수렴이 가능할 정도로 효율적이다.
관련 Figure

사전 학습된 VFM 백본 내부에 LoRA 어댑터가 삽입되는 위치와, 추출된 특징이 디코더를 통해 이상 맵(Mo) 및 신뢰도 맵(c)으로 변환되는 과정을 상세히 나타낸다. [CLS] 토큰이 이미지 레벨 점수 예측에 사용되는 구조도 명시되어 있다.
AnomalyVFM의 전체 아키텍처 다이어그램
한계점
가장 큰 병목 지점은 합성 데이터 생성 단계로, A100 GPU 기준 10,000장의 이미지를 생성하는 데 약 하루가 소요된다. 또한 의료 영상 분야에서 우수한 성능을 보였음에도 불구하고, 사용된 생성 모델이 전문적인 의료 영상을 완벽하게 모사하지 못해 성능 향상의 여지가 남아 있다.
실무 활용
산업 제조 공정의 품질 검사나 의료 영상 진단 등 학습 데이터가 부족한 환경에서 즉각적으로 활용 가능한 고성능 이상 탐지 솔루션이다.
- 신규 제품 라인업 도입 시 초기 학습 데이터 없이 자동 외관 검사 시스템 구축
- 희귀 질환이나 드문 케이스의 의료 영상 내 이상 부위 자동 탐지 및 국소화
- 다양한 객체가 혼재된 물류 환경에서의 파손 물품 자동 분류
- 도로 위 예기치 못한 장애물이나 인프라 결함 탐지 시스템
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

임계값이 높아질수록 데이터 품질은 좋아지지만 기각되는 데이터가 많아지며, AUROC 성능이 특정 지점(T=0.3)에서 최적화됨을 보여준다. 이는 합성 데이터의 품질 관리가 최종 성능에 직결됨을 시사한다.
필터링 임계값(Threshold T) 변화에 따른 모델 성능 및 데이터 기각률 변화 그래프
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.