결함 발견 및 수정: 에이전트 기반 데이터 합성을 통한 VLM 및 확산 모델의 시각적 아티팩트 이해력 강화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

최신 Diffusion 모델이 생성하는 이미지에는 손가락이 6개거나 물체가 겹치는 등의 시각적 결함(Artifact)이 여전히 존재하지만, 이를 감지해야 할 VLM조차 이를 제대로 파악하지 못하는 한계가 있다. 이 논문은 사람의 개입 없이도 정교한 결함 데이터를 대량으로 합성하는 에이전트 체계를 제안하여, 모델이 스스로 결함을 찾아내고 수정할 수 있는 능력을 획기적으로 높였다.

왜 중요한가

핵심 기여

ArtiAgent 프레임워크

인지, 합성, 큐레이션의 세 가지 에이전트가 협력하여 사람의 라벨링 없이도 고품질의 시각적 아티팩트 데이터를 자동 생성하는 시스템임.

Inversion-Injection 기법

Diffusion Transformer(DiT)의 Self-Attention 레이어에서 위치 임베딩(PE)과 값 임베딩을 조작하여, 배경은 유지하면서 특정 객체에만 정교한 물리적 왜곡을 주입하는 기술임.

ArtiBench 벤치마크

최신 모델(FLUX, SD3.5 등)에서 발생한 실제 결함 사례 1,000개를 포함한 벤치마크로 VLM의 아티팩트 이해도를 정밀하게 평가함.

핵심 아이디어 이해하기

Transformer의 Self-Attention은 이미지 내의 모든 패치(Patch) 간 관계를 계산하여 전체적인 구조를 형성한다. 기존 Diffusion 모델은 이 과정에서 통계적 확률에 의존하므로, 손가락 개수나 물체의 물리적 연결성 같은 상식적인 구조를 위반하는 '아티팩트'를 생성하는 한계가 있다. ArtiAgent는 DiT의 Self-Attention 과정에서 특정 패치가 참조하는 위치 정보(Positional Embedding)를 강제로 뒤바꾸는 'Inversion-Injection' 원리를 이용한다. 이는 모델이 이미지를 재구성할 때 특정 부위를 엉뚱한 위치에 배치하거나 왜곡하도록 유도하여, 실제 AI 모델이 저지를 법한 정교한 실수를 인위적으로 만들어낸다. 이러한 방식으로 생성된 10만 장의 데이터는 VLM이 무엇이 잘못되었는지를 학습하는 강력한 교재가 되며, 결과적으로 모델은 단순한 노이즈를 넘어 고차원적인 구조적 결함을 논리적으로 파악하고 스스로 수정할 수 있는 능력을 갖추게 된다.

방법론

ArtiAgent는 세 단계의 에이전트 파이프라인으로 구성된다. 먼저 Perception Agent가 Grounded-SAM을 사용하여 이미지 내의 객체(Entity)와 세부 부위(Subentity)를 식별하고 계층적 구조를 파악한다. [이미지 입력 → Grounded-SAM 연산 → 객체 마스크 및 계층 구조 출력 → 결함 주입 후보지 선정 의미] Synthesis Agent는 식별된 부위에 Add, Remove, Distort, Fuse 툴을 적용한다. 핵심인 Inversion-Injection 모듈은 DiT의 Self-Attention 레이어에서 특정 패치 p_t의 쿼리(Q)와 키(K)에 적용되는 RoPE(Rotary Positional Embedding)를 참조 패치 p_r의 것으로 교체한다. [타겟 패치 인덱스 입력 → RoPE 위치 정보 교체 연산 → 모델이 엉뚱한 위치의 정보를 참조하게 유도 → 구조적 결함 생성 의미] Curation Agent는 생성된 결함이 너무 이질적이거나 식별 불가능하지 않은지 LPIPS 지표와 VLM 기반 필터링을 통해 검증한다. 이후 결함의 위치(Bbox)와 이유를 텍스트로 설명하는 라벨을 자동으로 생성하여 최종 학습 데이터셋을 완성한다. [결함 이미지와 정상 이미지 쌍 입력 → LPIPS 거리 및 VLM 판별 연산 → 유효한 결함 데이터 선별 → 고품질 학습 데이터셋 확보 의미]

주요 결과

ArtiAgent로 생성된 100K 데이터를 학습한 Qwen2.5-VL-7B 모델은 ArtiBench 벤치마크의 이진 탐지 작업에서 정확도 62.7%를 기록하며, GPT-5(59.9%)와 Gemini-2.5-Pro(58.2%)를 능가하는 성능을 보였다. 결함 위치 추적(Localization) 성능에서도 mIoU 0.111을 기록하여 기존 SOTA 모델인 DiffDoctor(0.081) 대비 유의미한 향상을 보였으며, 결함에 대한 텍스트 설명 품질 역시 ROUGE 및 CSS 지표에서 가장 높은 점수를 획득했다. 응용 실험에서는 ArtiAgent 기반 리워드 모델을 사용하여 Diffusion 생성 과정을 가이드한 결과, 검색 라운드가 진행됨에 따라 결함이 없는 이미지 생성 확률이 지속적으로 상승함을 확인했다. 또한 VLM이 결함 부위를 찾아내고 Inpainting 모델이 이를 수정하는 루프를 통해 자동 이미지 보정 기능을 성공적으로 구현했다.

기술 상세

본 연구는 Diffusion Transformer(DiT) 아키텍처의 내부 메커니즘을 직접 제어하는 방식을 취한다. 특히 25단계의 Denoising 과정 중 초기 단계에서만 위치 임베딩(PE) 주입을 수행하여 전체적인 구조적 변화를 유도하고, 이후 단계에서는 값(Value) 주입을 통해 세부 질감을 유지하는 전략을 사용한다. Inversion-Injection은 기존의 이미지 편집 기술인 Inversion-Restoration을 확장한 것이다. 레이어 l의 입력 X(l)에 대해 Q, K, V를 계산한 후, 타겟 영역 P_T에 대해서만 Q_pt = RoPE(Q_pt, p_r)과 같이 위치 정보를 치환함으로써 모델이 공간적 문맥을 오인하게 만든다. 데이터 수집 과정에서는 COCO, Caltech-101 등 다양한 실제 이미지 데이터셋을 소스로 사용하여 도메인 범용성을 확보했다. 또한 LPIPS 기반 필터링 임계값을 0.5에서 0.9 사이로 설정하여, 너무 미세하거나 과도하게 파괴된 샘플을 배제하고 학습에 적합한 '그럴듯한 결함'만을 선별했다.

한계점

제안된 방법이 DiT 기반 모델에 최적화되어 있으며, U-Net 기반의 구형 확산 모델 아키텍처에 적용할 경우 성능이나 제어력이 달라질 수 있다. 또한 매우 복잡한 다중 객체 상호작용 상황에서의 결함 생성은 여전히 도전적인 과제로 남아있다.

실무 활용

생성 AI 서비스 운영 시 품질 검수(QA) 프로세스를 자동화하고, 사용자에게 결함이 없는 고품질 이미지만을 제공하는 필터링 시스템으로 즉시 활용 가능하다.

AI 이미지 생성 서비스의 자동 품질 검수 및 필터링
생성된 이미지의 특정 결함 부위 자동 수정 도구
VLM의 시각적 추론 능력을 강화하기 위한 합성 데이터 생성 파이프라인
의료나 자율주행 등 안전이 중요한 분야의 AI 생성 데이터 신뢰성 평가

코드 공개 여부: 공개

코드 저장소 보기

키워드

Diffusion Transformer(확산 트랜스포머)Visual Artifact(시각적 결함)Data Synthesis(데이터 합성)VLM(시각 언어 모델)Inversion-Injection(역전 주입)