핵심 요약
기존 가상 피팅 기술이 단일 의류 합성에 그쳤던 한계를 극복하고, 여러 벌의 옷을 겹쳐 입거나 액세서리를 매칭하는 실제 코디 환경을 구현하기 위한 대규모 자원을 제공한다. 특히 레이어링 순서와 스타일링 기법에 대한 정교한 텍스트 주석을 포함하여 차세대 멀티모달 AI 연구의 새로운 기준을 제시했다.
왜 중요한가
기존 가상 피팅 기술이 단일 의류 합성에 그쳤던 한계를 극복하고, 여러 벌의 옷을 겹쳐 입거나 액세서리를 매칭하는 실제 코디 환경을 구현하기 위한 대규모 자원을 제공한다. 특히 레이어링 순서와 스타일링 기법에 대한 정교한 텍스트 주석을 포함하여 차세대 멀티모달 AI 연구의 새로운 기준을 제시했다.
핵심 기여
최초의 대규모 아웃핏 수준 가상 피팅 데이터셋 Garments2Look 구축
40개 주요 카테고리와 300개 이상의 세부 카테고리를 아우르는 8만 개의 고품질 아이템-모델 이미지 쌍을 포함하며, 평균 4.48개의 참조 이미지를 제공한다.
레이어링 및 스타일링을 포함한 풍부한 멀티모달 주석 정의
의류의 겹침 순서(Layering order), 착용 방식(Styling techniques), 상세 텍스트 설명을 포함하여 시각 정보와 의상 의미론 사이의 간극을 메운다.
데이터 품질 보장을 위한 체계적인 합성 및 필터링 파이프라인
LLM을 활용한 아웃핏 리스트 생성, VLM 기반의 룩 합성, 패션 전문가의 검수 및 미적 점수 기반 필터링을 통해 데이터의 신뢰성을 확보했다.
핵심 아이디어 이해하기
기존 Virtual Try-On(VTON) 시스템은 주로 단일 의류를 모델 이미지의 특정 영역에 Warping하고 합성하는 방식에 의존했다. 이는 Attention Mechanism을 통해 의류 특징을 추출하고 모델의 포즈에 맞게 정렬하는 과정에서 효과적이지만, 여러 벌의 옷이 겹치거나 액세서리가 추가되는 복잡한 '아웃핏' 상황에서는 레이어 간의 폐색(Occlusion)과 상호작용을 처리하지 못하는 한계가 있다.
Garments2Look은 이러한 한계를 해결하기 위해 단순 시각 정보뿐만 아니라 '레이어링 논리'와 '스타일링 기법'을 텍스트 Embedding 형태로 결합한다. 예를 들어 '셔츠 위에 가디건'이라는 계층적 구조를 명시함으로써, 모델이 Attention 연산 시 어떤 의류가 전면에 노출되어야 하는지 명확한 가이드를 제공받게 한다.
이를 통해 기존 모델들이 다수의 아이템을 처리할 때 겪던 형태 왜곡이나 아이템 누락 문제를 억제한다. 결과적으로 단순한 이미지 합성을 넘어, 실제 사람이 옷을 입는 논리적 순서와 스타일을 반영한 고충실도 가상 피팅 구현이 가능해진다.
방법론
데이터 수집 및 분류 단계에서는 실제 착용 이미지와 개별 아이템 이미지가 쌍을 이루는 골드 표준 데이터(50.2%)를 중심으로, 아웃핏 제안만 있는 데이터와 개별 아이템 데이터 등을 통합하여 다양성을 확보했다.
아웃핏 합성(Outfit Synthesis) 과정에서는 LLM이 특정 패션 스타일과 사용자 시나리오를 바탕으로 3~9개의 아이템 리스트를 생성한다. 이때 아이템의 선택 확률 f(ci)는 해당 아이템의 과거 선택 빈도 ci를 기반으로 계산된다. [전체 데이터 중 최대 빈도 cmax와 현재 빈도 ci의 차이에 1을 더한 값 wi를 입력으로] → [전체 가중치 합으로 나누는 연산을 수행해] → [0에서 1 사이의 확률값을 얻고] → [이 값이 높을수록 이전에 적게 선택된 아이템이 다시 선택될 확률이 높아져 데이터의 다양성을 보장한다.]
룩 합성(Look Synthesis) 단계에서는 Nano Banana와 같은 고성능 이미지 편집 모델을 활용한다. OOTD(Outfit-of-the-Day) 그리드 형태의 이미지를 입력으로 받아 [그리드 이미지 + 레이어링/스타일링 프롬프트 입력 → Diffusion 모델 추론 → 최종 착용 이미지 출력] 순으로 연산하여 시각적 일관성이 유지된 결과물을 생성한다.
데이터 필터링 단계에서는 미적 점수 예측 모델을 사용하여 임계값 이하의 이미지를 제거하고, 13명의 패션 전문가가 직접 레이어링 정확도와 스타일링 일관성을 검수하여 최종 8만 개의 데이터셋을 확정했다.
주요 결과
DressCode-MR 및 Garments2Look 테스트셋에서 기존 SOTA VTON 모델(FastFit, OmniTry 등)과 범용 이미지 편집 모델(GPT-4o, Nano Banana 등)을 비교 실험했다. 실험 결과, 전용 VTON 모델들은 아이템 수가 4개를 초과할 때 레이어링 오류가 급격히 증가하며 성능이 저하되는 양상을 보였다.
Nano Banana와 같은 편집 모델은 시각적 품질은 우수했으나, 액세서리의 형태 왜곡이나 미세한 텍스트/질감 유지에서 한계를 보였다. 특히 복잡한 레이어링(3개 층 이상) 상황에서 FID와 KID 수치가 상대적으로 높게 나타나 정교한 제어의 필요성이 확인됐다.
텍스트 주석의 효과를 분석한 Ablation Study에서 아이템 카테고리만 제공했을 때보다 레이어링, 스타일링, 포즈 정보를 순차적으로 추가했을 때 FID가 23.272에서 21.545로 개선되어 멀티모달 정보의 중요성을 입증했다.
실무 활용
이 데이터셋은 복잡한 코디네이션이 필요한 이커머스 환경에서 개인화된 가상 피팅 서비스를 구축하는 데 즉시 활용 가능하다. 특히 레이어링과 액세서리 매칭이 중요한 패션 브랜드의 마케팅 도구로 높은 가치를 지닌다.
- 이커머스 플랫폼의 멀티 아이템 가상 피팅 룸 구현
- 패션 디자이너를 위한 아웃핏 조합 시각화 도구
- 개인화된 패션 추천 시스템의 착용 샷 생성
- 고해상도 패션 이미지 생성을 위한 파인튜닝 데이터셋
기술 상세
Garments2Look은 80,041개의 아이템-모델 쌍으로 구성되며, 40개의 주요 카테고리와 300개 이상의 세부 카테고리를 포함하는 계층적 구조를 가진다. 각 쌍은 평균 4.48개의 참조 이미지를 포함하여 멀티 레퍼런스 학습에 최적화되어 있다.
아키텍처 측면에서 이 데이터셋은 시각적 특징(Visual features)과 구조적 주석(Structured annotations)을 결합한 멀티모달 학습을 지원한다. 특히 레이어링 순서를 선형적 관계로 정의하여 인접 레이어 간의 전후 관계를 검증할 수 있도록 설계되었다.
데이터 합성 시 OOTD(Outfit-of-the-Day) 그리드 방식을 도입하여, 여러 아이템을 하나의 이미지로 통합 입력함으로써 모델이 아이템 간의 상대적 크기와 질감을 더 잘 파악하도록 유도했다.
평가 지표로는 전통적인 FID, KID 외에도 VLM(Gemini-3-Flash)을 활용한 이진 분류 기반의 의류 일관성, 레이어링 정확도, 스타일링 정확도를 새롭게 도입하여 정성적 평가의 객관성을 높였다.
한계점
범용 이미지 편집 모델 사용 시 인페인팅(Inpainting) 기능의 부재와 골격 포즈(Skeletal pose)에 대한 정밀한 제어 부족으로 인해 기존 전용 VTON 시스템 대비 구조적 일관성이 떨어지는 경우가 발생한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료