핵심 요약
인물과 제품의 통합을 보여주는 인물-제품(Human-product) 이미지는 광고, 이커머스(e-commerce) 및 디지털 마케팅에서 중요한 역할을 합니다. 이러한 이미지를 생성할 때 핵심적인 과제는 제품의 세부 사항을 고충실도(high-fidelity)로 보존하는 것입니다. 기존의 패러다임 중 참조 기반 인페인팅(reference-based inpainting)은 제품 참조 이미지를 활용하여 인페인팅 과정을 안내함으로써 타겟팅된 해결책을 제공합니다. 그러나 대규모 학습 데이터의 부족, 제품 세부 사항 보존에 집중하지 못하는 기존 모델의 한계, 정밀한 가이드를 달성하기 위한 거친 감독(coarse supervision)의 무능력함 등 세 가지 주요 측면에서 여전히 제약이 존재합니다. 이러한 문제를 해결하기 위해 본 논문에서는 인물-제품 이미지 생성을 위해 맞춤화된 새로운 고충실도 참조 기반 인페인팅 프레임워크인 HiFi-Inpaint를 제안합니다. HiFi-Inpaint는 미세한 제품 특징을 정제하기 위한 공유 강화 어텐션(Shared Enhancement Attention, SEA)과 고주파 맵(high-frequency maps)을 사용하여 정밀한 픽셀 수준의 감독을 강제하는 디테일 인식 손실(Detail-Aware Loss, DAL)을 도입합니다. 또한, 자체 합성 데이터에서 큐레이션하고 자동 필터링으로 처리한 샘플들로 구성된 새로운 데이터셋인 HP-Image-40K를 구축했습니다. 실험 결과, HiFi-Inpaint는 최첨단(state-of-the-art) 성능을 달성하며 디테일이 보존된 인물-제품 이미지를 제공함을 입증했습니다.
핵심 기여
HiFi-Inpaint 프레임워크 설계
인물과 제품이 결합된 이미지 생성 시 제품 고유의 디테일을 고충실도로 유지하는 새로운 인페인팅 구조를 제안했다.
공유 강화 어텐션(SEA) 도입
참조 이미지의 미세한 특징을 인페인팅 과정에 효과적으로 반영하여 제품의 시각적 일관성을 강화했다.
디테일 인식 손실(DAL) 개발
고주파 맵을 활용해 픽셀 단위의 정밀한 감독을 수행함으로써 텍스처와 윤곽선의 보존력을 극대화했다.
HP-Image-40K 데이터셋 구축
자동 필터링 기술을 적용한 4만 개의 고품질 합성 데이터셋을 구축하여 모델 학습의 데이터 부족 문제를 해결했다.
방법론
공유 강화 어텐션(Shared Enhancement Attention, SEA)을 통해 참조 이미지의 세부 특징을 인페인팅 네트워크와 공유하여 특징 정렬을 최적화한다. 또한 고주파 맵(High-frequency maps) 기반의 디테일 인식 손실(Detail-Aware Loss, DAL)을 적용하여 픽셀 단위의 정밀한 학습을 유도한다.
주요 결과
HP-Image-40K 데이터셋 실험에서 기존 참조 기반 인페인팅 모델들을 상회하는 최첨단(SOTA) 성능을 기록했다. 특히 제품의 로고, 텍스처, 복잡한 패턴 보존 능력에서 시각적으로 월등한 품질 향상을 보였다.
시사점
이커머스 광고 제작 시 실제 제품 사진을 인물 모델과 자연스럽게 합성하는 자동화 도구로 활용할 수 있다. 제품의 정체성을 훼손하지 않으면서도 고품질의 마케팅 이미지를 대량으로 생성하는 데 기여한다.
키워드
섹션별 상세
HiFi-Inpaint 프레임워크 설계
공유 강화 어텐션(SEA) 도입
디테일 인식 손실(DAL) 개발
HP-Image-40K 데이터셋 구축
AI 요약 · 북마크 · 개인 피드 설정 — 무료