핵심 요약
기존 가상 시착 기술은 옷이 몸에 잘 맞는 경우만 주로 다루었으나, 이 논문은 옷이 너무 크거나 작은 '부적합(ill-fit)' 상황까지 정확히 묘사할 수 있는 대규모 데이터셋과 모델을 제시한다. 3D 물리 시뮬레이션과 실사 합성 기술을 결합하여 온라인 쇼핑 시 실제 착용감을 예측하는 데 큰 도움을 준다.
왜 중요한가
기존 가상 시착 기술은 옷이 몸에 잘 맞는 경우만 주로 다루었으나, 이 논문은 옷이 너무 크거나 작은 '부적합(ill-fit)' 상황까지 정확히 묘사할 수 있는 대규모 데이터셋과 모델을 제시한다. 3D 물리 시뮬레이션과 실사 합성 기술을 결합하여 온라인 쇼핑 시 실제 착용감을 예측하는 데 큰 도움을 준다.
핵심 기여
FIT 데이터셋 구축
정밀한 신체 및 의류 치수 정보가 포함된 113만 개의 가상 시착 이미지 트리오를 포함하는 대규모 데이터셋을 구축했다.
확장 가능한 합성 데이터 생성 파이프라인
GarmentCode를 활용한 3D 의류 생성, 물리 기반 드레이핑 시뮬레이션, 그리고 이를 실사로 변환하는 재질 합성(Re-texturing) 과정을 통합한 파이프라인을 개발했다.
Fit-VTO 모델 제안
신체와 의류의 수치 데이터를 직접 입력받아 의류의 외형뿐만 아니라 실제 적합도(Fit)를 정확하게 시각화하는 새로운 가상 시착 모델을 구현했다.
관련 Figure

다양한 체형의 모델이 서로 다른 사이즈의 옷을 입었을 때의 'Tight Fit'부터 'Loose Fit'까지의 변화를 보여준다. 오른쪽에는 가슴, 허리, 힙 등 구체적인 수치 데이터가 어떻게 매핑되는지 시각화되어 있다.
FIT 데이터셋의 구성 요소와 신체/의류 치수 주석 예시
핵심 아이디어 이해하기
기존의 가상 시착(VTO) 모델은 주로 이미지의 픽셀 정보를 전이하는 방식에 집중하여, 옷이 사람의 체형에 비해 너무 크거나 작을 때 발생하는 물리적 변화를 제대로 표현하지 못했다. 이는 '옷이 내 몸에 어떻게 맞을까'라는 근본적인 질문에 답하기 어렵게 만든다.
이 문제를 해결하기 위해 연구팀은 3D 물리 시뮬레이션에서 얻은 기하학적 정보를 딥러닝 모델의 가이드로 삼았다. 먼저 GarmentCode를 통해 다양한 크기의 3D 옷을 만들고 이를 가상 신체에 입혀 주름과 처짐을 계산한다. 이 과정에서 얻은 노멀 맵(Normal Map)은 옷의 입체적 구조를 담고 있으며, 이를 확산 모델(Diffusion Model)의 조건으로 입력하여 실사 이미지를 생성한다.
결과적으로 모델은 단순히 옷의 무늬를 입히는 것을 넘어, 수치화된 치수 데이터를 바탕으로 옷이 몸에 끼거나 헐렁한 상태를 픽셀 단위로 정교하게 재구성한다. 이는 가상 시착 기술이 단순한 시각화를 넘어 실제 사이즈 추천 도구로 진화할 수 있음을 의미한다.
방법론
전체 시스템은 3D 시뮬레이션과 2D 실사 합성의 결합으로 구성된다. 먼저 GarmentCode를 사용하여 2D 패턴 기반의 3D 의류를 생성하고, Warp 물리 엔진을 통해 다양한 체형의 3D 모델에 드레이핑한다. 이때 서로 다른 사이즈의 옷을 입히는 '교차 드레이핑(Cross-draping)' 전략을 사용하여 꽉 끼거나 헐렁한 시나리오를 생성한다.
핵심 메커니즘인 재질 합성(Re-texturing)은 Flux.1-dev 모델을 기반으로 한다. 시뮬레이션된 3D 렌더링 이미지에서 추출한 노멀 맵 I_n과 의류 설명을 담은 텍스트 p를 입력으로 받아 실사 이미지 I_try-on을 생성한다. [노멀 맵 → 확산 모델 연산 → 실사 이미지] 과정을 통해 기하학적 구조는 유지하면서 실사 텍스처를 입힌다.
학습을 위해 동일 인물이 다른 옷을 입은 '쌍을 이룬 데이터(Paired data)'를 생성하는 기법을 도입했다. 정체성 맵(Identity Map) I_id를 사용하여 배경과 피부 정보를 보존하면서 의류 영역만 교체하는 인페인팅 모델 f_paired를 학습시켜 지도 학습이 가능한 환경을 구축했다.
관련 Figure

3D 시뮬레이션(GarmentCode)부터 노멀 맵 추출, 그리고 확산 모델을 이용한 재질 합성 및 쌍을 이룬 데이터 생성 과정을 단계별로 설명한다. 시뮬레이션의 기하학적 구조가 어떻게 최종 실사 이미지로 변환되는지 보여준다.
FIT 데이터셋 생성을 위한 전체 파이프라인 다이어그램
주요 결과
FIT 데이터셋으로 학습된 Fit-VTO 모델은 기존 SOTA 모델인 IDM-VTON, Any2AnyTryon 등과 비교했을 때 의류 적합도 묘사에서 압도적인 성능을 보였다. 특히 FIT 데이터셋의 IoU(Intersection-over-Union) 지표에서 0.955를 기록하여, 치수 정보를 반영하지 못하는 기존 모델들(0.78~0.79 수준)보다 훨씬 정확한 형태를 생성했다.
실제 사람 이미지에 대한 일반화 성능 실험에서도 수치 데이터 없이 텍스트 설명만으로도 자연스러운 시착 결과를 생성했다. Ablation study 결과, 수치 데이터를 직접 임베딩하여 모델에 주입하는 방식이 기존의 T5나 CLIP 텍스트 인코더를 사용하는 것보다 정밀한 사이즈 조절에 훨씬 효과적임이 증명됐다.
관련 Figure

XS부터 3XL까지의 신체와 의류 조합을 통해 모델이 실제 물리적인 적합도를 얼마나 잘 구현하는지 보여준다. 옷의 크기에 따라 주름의 형태와 신체 노출 정도가 달라지는 것을 확인할 수 있다.
다양한 체형과 의류 사이즈 조합에 따른 Fit-VTO 결과물
기술 상세
Fit-VTO 아키텍처는 120억 개의 파라미터를 가진 Flux.1-dev를 기반으로 하며, LoRA를 통해 효율적으로 파인튜닝되었다. 기존의 T5 텍스트 인코더를 제거하고, 신체 및 의류 치수 7개를 입력받는 커스텀 측정 인코더(Measurement Encoder)를 도입했다.
측정 인코더는 입력된 수치 벡터 m을 8개의 푸리에 주파수 대역을 가진 Fourier Feature Embedding으로 변환한 후 MLP를 거쳐 3072 차원의 히든 벡터로 투영한다. 이 벡터는 MMDiT(Multi-modal Diffusion Transformer) 블록 내에서 교차 어텐션(Cross-attention)을 통해 이미지 생성 과정을 제어한다.
데이터셋 구축 시 도메인 갭을 줄이기 위해 '복합 정제 전략(Composite refinement strategy)'을 사용했다. 시뮬레이션 데이터의 단조로운 얼굴과 발 부분을 VLM을 이용해 실사로 인페인팅한 후 노멀 맵을 다시 추출하여 학습에 사용함으로써 모델이 실사 이미지의 세부 사항을 학습하도록 유도했다.
관련 Figure

서로 다른 체형에 옷을 입힐 때 초기 메시 정렬이 맞지 않으면 시뮬레이션 오류가 발생하지만, 제안된 재정렬 기법을 통해 자연스러운 드레이핑이 가능해짐을 보여준다.
시뮬레이션 시 박스메시 재정렬(Boxmesh Realignment)의 효과 비교
한계점
매우 꽉 끼는 옷의 경우 시뮬레이션 상에서 피부에 밀착된 모습이 실제 착용 시의 압박감이나 질감 변화를 완벽하게 표현하지 못하는 한계가 있다. 또한 의류의 너비가 증가하면 길이도 함께 늘어나는 등 치수 간의 상관관계로 인해 특정 치수 하나만 독립적으로 조절하는 데 어려움이 있을 수 있다.
실무 활용
온라인 의류 쇼핑몰에서 고객의 실제 신체 치수를 바탕으로 옷이 어떻게 맞을지 미리 보여주는 정교한 가상 피팅룸 서비스에 즉시 활용 가능하다.
- 개인별 신체 치수 기반 맞춤형 가상 피팅 서비스
- 의류 브랜드의 사이즈별 핏(Fit) 가이드 시각화 도구
- 다양한 체형을 고려한 패션 디자인 및 마케팅 콘텐츠 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.