서울대학교 DSBA 연구실AI/ML

제로샷 이상 탐지를 위한 상호 필터링 기반 브릿지 특징 매칭 및 교차 모달 정렬

CLIP의 텍스트-이미지 정렬 능력과 중간 레이어의 시맨틱 정보를 활용하여, 단 한 쌍의 테스트 이미지만으로도 정밀한 이상 탐지를 수행하는 FiCLIP-AD 프레임워크를 제안한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

FiCLIP-AD는 단 두 장의 이미지를 비교하는 Dual-image 구성을 통해 실용성을 확보했다. 상호 필터링으로 노이즈를 제거하고 중간 레이어의 어텐션 정보를 복원함으로써 기존 SOTA 모델 대비 높은 성능을 달성했다.

배경

기존 제로샷 이상 탐지 모델들은 테스트 이미지 내의 정상 정보를 충분히 활용하지 못하거나, 실무 적용이 어려운 대규모 배치 단위 연산을 요구하는 한계가 있었다.

대상 독자

컴퓨터 비전 연구자, 제조 공정 이상 탐지 시스템 개발자, CLIP 활용 사례에 관심 있는 AI 엔지니어

의미 / 영향

제조 현장에서 소량의 샘플만으로도 고성능 이상 탐지 시스템을 즉시 배포할 수 있는 실용적인 방법론을 제시했다. 특히 CLIP과 같은 파운데이션 모델의 내부 레이어 정보를 재해석하여 특정 도메인에 최적화하는 기법은 향후 다양한 비전 태스크에 응용될 가능성이 높다.

챕터별 상세

00:00

배경 및 기존 연구의 한계

최근 제로샷 이상 탐지 트렌드는 CLIP의 이미지-텍스트 피처 유사도를 이용하는 방식이다. WinCLIP은 텍스트 프롬프트를 활용해 정상과 이상을 구분하지만 테스트 이미지의 정상 정보를 활용하지 못한다. 반면 Mutual Scoring은 테스트 이미지 전체를 참조 이미지로 사용해 성능을 높였으나, 실시간 추론이 필요한 환경에서는 비실용적이라는 단점이 존재한다.

•WinCLIP은 CLIP의 비전-언어 학습 능력을 활용한 대표적 제로샷 모델이다
•Mutual Scoring은 배치 내 모든 이미지를 참조하여 성능을 높였으나 실용성이 낮다
•테스트 이미지 내의 풍부한 정상 정보를 효율적으로 활용할 방법이 필요하다

02:49

FiCLIP-AD의 핵심 아키텍처: SeCLIP-AD

SeCLIP-AD는 CLIP의 텍스트-비전 정렬 능력을 활용하는 기본 컴포넌트이다. 정상과 비정상을 나타내는 다양한 텍스트 프롬프트의 클래스 토큰 평균을 텍스트 피처로 사용한다. 비전 인코더에서 추출된 패치 피처와 텍스트 피처 간의 유사도를 계산하여 최종적인 어노말리 세그멘테이션 맵을 생성하는 구조를 가진다.

•정상/비정상 상태를 포함한 다양한 템플릿 문장을 조합해 텍스트 피처를 생성한다
•비전 인코더의 출력과 텍스트 피처의 차원을 맞추기 위해 프로젝션을 수행한다
•소프트맥스 함수를 통해 각 패치별 이상 확률을 산출한다

04:34

시맨틱 상관관계 복원 (Semantic Correlation Recovery)

CLIP 비전 인코더의 마지막 레이어에서 발생하는 시맨틱 정보 손실을 보완하는 기법이다. 연구 결과 마지막 24번째 레이어보다 중간 단계인 12번째 레이어의 어텐션 맵이 객체의 국소적 의미 정보를 더 잘 보존하고 있음이 확인됐다. 이에 따라 마지막 레이어의 피처 대신 중간 레이어의 어텐션 값을 활용하여 이상 탐지의 정밀도를 높였다.

•마지막 레이어는 글로벌 토큰에 집중하여 세부 시맨틱 정보가 손실되는 경향이 있다
•12번째 레이어의 어텐션을 활용해 로컬 시맨틱 정보를 복원했다
•레지듀얼 커넥션을 제외한 어텐션 값만을 사용하여 성능 저하를 방지했다

05:19

상호 필터링 마스크 (Mutual-filtering Mask)

참조 이미지 내에 포함된 이상 패치가 성능을 떨어뜨리는 노이즈 문제를 해결하기 위해 제안됐다. SeCLIP-AD의 초기 결과를 바탕으로 이상 확률이 높은 패치를 마스킹하여 참조 피처에서 제외한다. 단 두 장의 이미지만 사용하는 Dual-image 구성에서도 효과적으로 작동하도록 설계되었으며, 여러 레이어와 이웃 정보를 활용해 마스크를 정교화한다.

•이상 패치 피처가 참조 정보에 포함되지 않도록 마스킹 처리를 수행한다
•휴리스틱한 임계값을 적용하여 정상과 이상 패치를 구분한다
•메조리티 보팅을 통해 최종 마스크를 결정하여 안정성을 높였다

text

Algorithm 1: Noise mutual filtering
Input: Starting masks Mu and Mv, inference
For r = 1, 3, 5 do
  For l in {6, 12, 18, 24} do
    F_u_hat = F_u * M_u, F_v_hat = F_v * M_v
    a_uv = min ||F_u_hat - F_v_hat||
  End
  a_uv_avg = mean(a_uv)
  M_inter = (a_uv_avg > mu)
  M_u = vote(M_u, M_inter)
End

노이즈 특징을 제거하기 위한 상호 필터링 알고리즘의 의사코드

08:38

실험 결과 및 성능 분석

MVTec AD와 VisA 데이터셋에서 실험을 진행한 결과, 기존 Mutual Scoring 대비 AUROC 성능이 향상됐다. 특히 세그멘테이션 성능에서 뚜렷한 우위를 보였으며, 단 한 쌍의 이미지만 사용하는 원샷 환경에서도 높은 성능을 유지했다. 필터링 기법 적용 후 이상 점수의 평균값이 0.49에서 0.57로 증가하며 정상과 이상의 구분력이 강화됨을 시각적으로 증명했다.

•MVTec AD 데이터셋에서 Mutual Scoring 대비 0.7% AUROC 향상을 달성했다
•노이즈 필터링을 통해 이상 데이터의 스코어가 더 명확하게 구분된다
•중간 레이어 활용이 성능 향상에 결정적인 역할을 함을 어블레이션 스터디로 확인했다

실무 Takeaway

CLIP의 마지막 레이어보다 중간 레이어(예: 12번째 레이어)가 객체의 시맨틱 정보를 더 잘 보존하므로 이를 이상 탐지에 활용하는 것이 효과적이다
테스트 이미지 전체를 참조하는 대신 단 한 쌍의 이미지만 비교하는 Dual-image 방식을 통해 실시간성에 가까운 추론 환경을 구축할 수 있다
이상 탐지 결과에서 노멀리티와 어노멀리티 확률을 비교하여 노이즈 특징을 마스킹하는 필터링 기법이 성능 향상의 핵심이다

언급된 리소스

논문Bridge Feature Matching and Cross-Modal Alignment with Mutual-filtering for Zero-shot Anomaly Detection

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 10.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

제로샷 이상 탐지를 위한 상호 필터링 기반 브릿지 특징 매칭 및 교차 모달 정렬 | AI Trends