HiFi-Inpaint: 세밀한 디테일 보존형 인물-상품 이미지 생성을 위한 고정밀 참조 기반 인페인팅

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

이커머스 광고에서 인물과 상품이 결합된 이미지는 필수적이지만, 기존 AI는 상품의 로고나 미세한 질감을 뭉개뜨리는 한계가 있었다. 이 연구는 고주파 정보를 활용해 상품의 정체성을 픽셀 단위로 정밀하게 복원함으로써 자동화된 상업용 콘텐츠 제작의 실용성을 확보했다.

왜 중요한가

핵심 기여

HiFi-Inpaint 프레임워크

상품 참조 이미지를 기반으로 인물 이미지의 특정 영역을 채우면서도 미세한 디테일을 보존하는 새로운 인페인팅 구조를 확립했다.

Shared Enhancement Attention (SEA)

고주파 맵 토큰을 활용해 마스크 영역 내의 시각적 특징을 정밀하게 다듬는 이중 스트림 DiT 블록을 도입했다.

Detail-Aware Loss (DAL)

잠재 공간 손실 함수의 한계를 보완하기 위해 고주파 픽셀 레벨 감독을 통한 세밀한 재구성을 유도하는 손실 함수를 설계했다.

HP-Image-40K 데이터셋 구축

자가 합성 파이프라인과 자동 필터링을 통해 구축된 40,000개 이상의 고품질 인물-상품 이미지 데이터셋을 공개하여 연구 기반을 마련했다.

핵심 아이디어 이해하기

기존 Diffusion 모델은 이미지를 압축된 잠재 공간(Latent space)에서 처리하기 때문에, 상품의 로고나 텍스트 같은 미세한 고주파(High-frequency) 정보를 손실하기 쉽다. 특히 인물과 상품이 결합된 이미지에서는 상품의 정체성이 조금이라도 변하면 상업적 가치가 크게 훼손되는 문제가 발생한다.

HiFi-Inpaint는 이 문제를 해결하기 위해 이미지의 '윤곽선'이나 '질감'이 집중된 고주파 성분을 별도의 가이드로 활용한다. Transformer 기반의 DiT 아키텍처 내에서 일반적인 이미지 토큰과 고주파 맵 토큰을 동시에 처리하는 이중 스트림 구조를 설계하여, 모델이 상품의 세밀한 특징에 더 집중하도록 유도한다.

결과적으로 모델은 전체적인 구도를 자연스럽게 잡는 동시에, 상품의 브랜드 로고나 고유한 패턴을 픽셀 단위로 정확하게 유지하며 배경 및 인물과 자연스럽게 합성할 수 있게 된다.

방법론

전체 아키텍처는 FLUX.1-Dev를 기반으로 하며, 텍스트 프롬프트, 마스킹된 인물 이미지, 상품 참조 이미지를 입력으로 받는다. 고주파 추출 알고리즘을 통해 상품 이미지에서 미세한 디테일 정보를 담은 고주파 맵을 생성한다.

Shared Enhancement Attention (SEA)은 이중 스트림 DiT 블록으로 구성된다. 한 스트림은 원본 이미지 토큰을 처리하고, 다른 스트림은 고주파 맵 토큰을 처리한다. [입력 토큰 → 마스킹된 영역에 고주파 가중치 α를 적용한 Attention 연산 → 업데이트된 토큰] 과정을 거쳐 세부 특징이 강화된 결과를 얻는다.

Detail-Aware Loss (DAL)는 예측된 이미지와 실제 이미지의 고주파 성분 차이를 계산한다. [예측 이미지와 실제 이미지 입력 → 고주파 필터 H(·) 적용 → 마스크 영역 내에서의 L2 거리 계산 → 손실값 도출] 순서로 연산이 수행된다. 이는 MSE Loss가 놓치기 쉬운 픽셀 레벨의 정밀한 복원을 강제한다.

주요 결과

HP-Image-40K 벤치마크에서 기존 SOTA 모델인 ACE++, Insert Anything 등을 압도했다. 특히 시각적 일관성을 측정하는 CLIP-I(95.0%)와 DINO(91.9%)에서 최고 점수를 기록하며 상품의 정체성을 가장 잘 보존함을 입증했다.

구조적 유사도를 측정하는 SSIM(0.634)과 고주파 영역의 정확도를 보는 SSIM-HF(42.9)에서도 가장 높은 성능을 보여, 미세한 텍스트나 로고 복원 능력이 탁월함을 확인했다.

Ablation Study 결과, SEA와 DAL을 모두 적용했을 때 디테일 보존 성능이 가장 높았으며, 합성 데이터셋(HP-Image-40K)을 통한 학습이 모델의 일반화 성능 향상에 핵심적인 역할을 했음이 확인됐다.

기술 상세

HiFi-Inpaint는 FLUX.1-Dev의 MMDiT 구조를 확장하여 참조 기반 인페인팅에 최적화했다. 고주파 추출을 위해 Discrete Fourier Transform(DFT)과 하이패스 필터를 사용하여 텍스트와 로고에 반응하는 맵을 생성한다.

SEA 메커니즘은 파라미터를 공유하는 이중 스트림 블록을 통해 모델의 크기를 크게 늘리지 않으면서도 고주파 정보를 주입한다. 학습 가능한 가중치 α를 통해 고주파 가이드의 영향력을 동적으로 조절하며, 마스크 영역에만 집중하도록 Attention Masking을 적용한다.

학습 전략으로는 Flow Matching을 사용하며, Latent MSE Loss와 DAL을 결합한 하이브리드 손실 함수를 통해 전역적 일관성과 국소적 정밀도를 동시에 최적화한다. 1024x576 해상도에서 학습 및 평가가 수행되었다.

한계점

마스크 영역이 매우 작을 경우 일부 아티팩트가 발생할 수 있으며, 극단적인 조명 변화나 복잡한 폐색(Occlusion) 상황에서의 일반화 성능은 여전히 개선의 여지가 있다.

실무 활용

이커머스 및 광고 산업에서 상품 이미지를 다양한 인물 모델과 자연스럽게 합성하는 자동화 도구로 즉시 활용 가능하다.

이커머스 상품 상세 페이지용 인물 착용 샷 자동 생성
브랜드 로고와 디자인을 유지한 채 광고 배경 및 모델 교체
가상 시착(Virtual Try-on) 서비스의 상품 디테일 강화

코드 공개 여부: 공개

코드 저장소 보기

키워드

Reference-based Inpainting(참조 기반 인페인팅)High-Fidelity(고정밀)Diffusion Transformer(확산 트랜스포머)High-frequency Map(고주파 맵)E-commerce AI(이커머스 AI)