핵심 요약
기존 이상 탐지 모델들이 배경이나 조명 변화 같은 시각적 노이즈에 취약해 실제 공정 적용이 어렵다는 문제를 해결한다. 픽셀 단위의 미세한 결함이 아닌, 물체의 개수나 배치 같은 논리적 규칙 위반을 정확히 찾아내는 새로운 벤치마크와 언어 기반 방법론을 제시한다.
왜 중요한가
기존 이상 탐지 모델들이 배경이나 조명 변화 같은 시각적 노이즈에 취약해 실제 공정 적용이 어렵다는 문제를 해결한다. 픽셀 단위의 미세한 결함이 아닌, 물체의 개수나 배치 같은 논리적 규칙 위반을 정확히 찾아내는 새로운 벤치마크와 언어 기반 방법론을 제시한다.
핵심 기여
VID-AD 데이터셋 구축
10가지 산업 시나리오와 5가지 촬영 환경(배경 변화, 조명 변화, 블러 등)을 조합하여 총 10,395장의 이미지로 구성된 논리적 이상 탐지 전용 데이터셋을 제안함.
텍스트 기반 이상 탐지 프레임워크
이미지를 논리 중심의 텍스트 설명으로 변환하여 시각적 노이즈를 배제하고, 언어 임베딩 공간에서 논리적 일관성만을 학습하는 새로운 접근 방식을 설계함.
대조 학습 기반의 텍스트 인코더 미세 조정
정상 이미지의 텍스트와 이를 논리적으로 수정한 부정 텍스트를 생성하여, 논리적 속성에 민감한 임베딩 공간을 학습함으로써 시각적 방해 요소에 대한 강건성을 확보함.
핵심 아이디어 이해하기
기존의 이상 탐지 방식은 이미지의 픽셀 값 변화에 민감한 패치 중심 표현(Patch-centric representation)을 사용한다. 이는 흠집 같은 구조적 결함에는 유리하지만, 배경이 바뀌거나 조명이 어두워지면 정상 제품도 이상으로 오탐하는 한계가 있다. 딥러닝의 기초인 임베딩(Embedding) 개념을 활용하되, 픽셀이 아닌 언어를 앵커로 삼아 이 문제를 해결한다.
먼저 시각 언어 모델(VLM)을 통해 이미지를 "파란색 원통 2개와 빨간색 사각형 1개가 있다"는 식의 구체적인 텍스트로 변환한다. 이 과정에서 배경의 질감이나 조명 같은 저수준 시각 정보는 필터링되고 핵심적인 논리 정보만 남는다. 이렇게 정제된 텍스트를 BERT와 같은 언어 모델의 임베딩 공간에 투영하여 정상적인 논리 구조를 학습한다.
결과적으로 모델은 시각적 노이즈에 휘둘리지 않고, 임베딩 공간 내에서의 거리를 통해 물체의 개수가 틀리거나 배치가 잘못된 논리적 오류만 정확히 식별한다. 이는 복잡한 시각 정보를 고차원적인 언어 개념으로 추상화하여 판단의 근거를 명확히 한 결과이다.
방법론
VLM 기반 텍스트 생성 및 부정 텍스트 합성을 수행한다. Qwen2-VL 모델을 사용하여 정상 이미지를 구조화된 텍스트 설명으로 변환한다. 이후 텍스트 리라이팅(Rewriting) 전략을 통해 속성(색상, 유형, 개수 등)을 하나 이상 모순되게 수정한 부정 텍스트를 생성하여 학습 데이터를 확보한다.
Contrastive Fine-tuning 단계에서는 BERT 인코더를 사용하여 텍스트 임베딩을 생성한다. InfoNCE Loss를 사용하여 동일한 텍스트의 드롭아웃 버전(Positive pair)은 가깝게, 논리적으로 모순된 텍스트(Negative pair)는 멀어지게 학습시킨다. [입력 텍스트 → BERT 인코딩 → L2 정규화 → 임베딩 벡터] 순으로 연산하여 논리적 일관성을 수치화한다.
추론 및 통계적 앙상블 스코어링을 통해 최종 판정을 내린다. 테스트 이미지를 VLM으로 텍스트화한 후, 학습된 BERT로 임베딩을 추출한다. 이를 정상 이미지들의 임베딩 라이브러리와 k-최근접 이웃(k-NN) 거리로 비교하여 이상 점수를 산출한다. [테스트 임베딩 → k-NN 거리 계산 → 거리의 평균 산출 → 0~1 사이의 정상성 점수 변환] 과정을 거쳐 최종 이상 여부를 결정한다.
주요 결과
VID-AD 데이터셋의 5가지 촬영 조건(White BG, Cable BG, Mesh BG, Low-light, Blurry) 전체에서 기존 시각 기반 모델들을 압도하는 성능을 기록했다. 평균 AUROC 0.831을 달성하며 2위 모델인 CSAD(0.662) 대비 약 0.17 가량 높은 수치를 보였다.
시각적 방해 요소에 대한 안정성 분석에서 기존 모델들은 조건에 따라 AUROC가 최대 0.129까지 크게 변동하는 반면, 제안 모델은 표준편차 0.013 수준의 매우 일관된 성능을 유지했다. 이는 픽셀 수준의 특징이 아닌 언어 수준의 추론이 환경 변화에 매우 강건함을 입증하는 결과이다.
실무 활용
조명이 불안정하거나 배경이 수시로 바뀌는 실제 제조 공정 라인에서 제품의 조립 상태나 구성품 누락을 검사하는 시스템에 즉시 적용 가능하다.
- 컨베이어 벨트 위의 부품 개수 및 배치 자동 검사
- 다양한 조명 환경의 물류 센터 내 상품 오배송 및 구성품 확인
- 배경이 복잡한 야외 환경에서의 장비 구성 요소 및 안전 장구 착용 점검
기술 상세
VLM(Qwen2-VL-7B)을 고정(Frozen)된 상태로 사용하여 이미지의 시각적 특징을 텍스트 설명으로 추출하는 Vision-to-Text 파이프라인을 구축했다. BERT-base-uncased 모델을 각 태스크별로 독립적으로 미세 조정하며, 데이터 증강을 위해 드롭아웃을 활용한 스토캐스틱 뷰(Stochastic views)를 생성하여 단일 텍스트 설명만으로도 효과적인 대조 학습이 가능하게 했다. 부정 텍스트 생성 시 텍스트 구조와 길이는 유지하되 속성만 교체하는 제약 조건을 두어, 모델이 문장 길이나 형식 같은 표면적 특징이 아닌 실제 논리적 모순에 집중하도록 유도한 것이 핵심이다.
한계점
VLM의 텍스트 생성 능력에 전적으로 의존하므로, VLM이 복잡한 객체 관계를 잘못 설명하거나 미세한 속성을 누락할 경우 전체 시스템의 성능이 저하될 수 있다. 또한 고정된 프롬프트를 사용하기 때문에 더 세밀한 디테일 포착을 위한 유연한 설명 전략이 부족할 수 있다는 점이 한계로 지적된다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료