핵심 요약
디퓨전 모델(Diffusion Models)의 최근 발전에도 불구하고, AI가 생성한 이미지는 여전히 현실성을 저해하는 시각적 아티팩트(Visual Artifacts)를 포함하는 경우가 많습니다. 더 철저한 사전 학습과 대규모 모델이 아티팩트를 줄일 수는 있지만, 완전히 제거된다는 보장이 없으므로 아티팩트 완화 연구는 매우 중요한 분야입니다. 기존의 아티팩트 인지 방법론은 비용이 많이 들고 확장이 어려운 수동 레이블링 데이터셋에 의존해 왔으며, 이는 신뢰할 수 있는 아티팩트 주석 데이터셋을 획득하기 위한 자동화된 접근 방식의 필요성을 강조합니다. 본 논문에서는 실제 이미지와 아티팩트가 주입된 이미지 쌍을 효율적으로 생성하는 아티에이전트(ArtiAgent)를 제안합니다. 이 시스템은 실제 이미지에서 엔티티(Entity)와 하위 엔티티를 인식하고 접지(Grounding)하는 인지 에이전트(Perception Agent), 디퓨전 트랜스포머(Diffusion Transformer, DiT) 내에서 새로운 패치 단위 임베딩 조작(Patch-wise Embedding Manipulation)을 통해 아티팩트를 도입하는 합성 에이전트(Synthesis Agent), 그리고 합성된 아티팩트를 필터링하고 각 사례에 대해 국소적 및 전역적 설명을 생성하는 큐레이션 에이전트(Curation Agent)의 세 가지 에이전트로 구성됩니다. 아티에이전트를 사용하여 풍부한 아티팩트 주석이 포함된 10만 개의 이미지를 합성했으며, 다양한 응용 분야에서 그 효과와 다재다능함을 입증했습니다.
핵심 기여
자동화된 아티팩트 데이터 합성 프레임워크 ArtiAgent 개발
인간의 개입 없이 실제 이미지에 정교한 시각적 결함을 주입하고 이에 대한 상세한 설명을 생성하는 3단계 에이전트 시스템을 구축하여 데이터 확장성 문제를 해결했다.
패치 단위 임베딩 조작을 통한 정교한 결함 주입 기법
디퓨전 트랜스포머(DiT)의 내부 잠재 공간에서 패치 단위로 임베딩을 조작하여 특정 영역에 의도적인 시각적 오류를 삽입하는 기술적 방법론을 제시했다.
10만 규모의 대규모 아티팩트 주석 데이터셋 구축
생성된 이미지에 대해 위치 정보(Grounding)와 텍스트 설명을 모두 포함하는 대규모 데이터셋을 공개하여 VLM 및 디퓨전 모델의 학습 및 평가 지표로 활용 가능하게 했다.
방법론
ArtiAgent는 인지, 합성, 큐레이션의 세 단계 에이전트 구조를 가집니다. 합성 단계에서는 디퓨전 트랜스포머(DiT)의 잠재 공간(Latent Space)에서 패치 단위 임베딩을 직접 조작하여 부자연스러운 형태나 질감을 생성하는 아티팩트 주입 도구를 활용합니다. 큐레이션 에이전트는 생성된 결과물의 품질을 검증하고 시각적 결함에 대한 논리적 설명을 생성하여 학습 데이터의 질을 확보합니다.
주요 결과
ArtiAgent를 통해 10만 개의 아티팩트 주석 이미지를 생성했습니다. 실험 결과, 이 데이터셋으로 학습된 시각 언어 모델(VLM)은 기존 수동 레이블링 데이터셋 기반 모델보다 시각적 결함 탐지 및 설명 능력에서 우수한 성능을 보였으며, 디퓨전 모델의 생성 품질 개선을 위한 피드백 루프 구축에도 효과적임을 입증했습니다.
시사점
AI 생성 이미지의 품질 평가 및 개선 프로세스를 자동화할 수 있는 실질적인 도구를 제공합니다. 특히 고비용의 수동 검수 과정을 대체하여 대규모 모델의 사후 교정(Post-rectification)이나 품질 필터링 시스템 구축에 즉시 활용 가능할 것으로 기대됩니다.
키워드
섹션별 상세
자동화된 아티팩트 데이터 합성 프레임워크 ArtiAgent 개발
패치 단위 임베딩 조작을 통한 정교한 결함 주입 기법
10만 규모의 대규모 아티팩트 주석 데이터셋 구축
AI 요약 · 북마크 · 개인 피드 설정 — 무료