Vanast: 합성 트리플렛 감독 학습을 통한 인물 이미지 애니메이션 기반 가상 시착

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 가상 시착 기술은 정지 이미지에 국한되거나 비디오 생성 시 인물의 정체성이 변하는 문제가 있었다. 이 논문은 단일 단계 통합 프레임워크를 통해 의류 전송과 동작 애니메이션을 동시에 수행함으로써 시각적 일관성과 실시간성을 크게 개선했다.

왜 중요한가

핵심 기여

단일 단계 통합 가상 시착 프레임워크

이미지 기반 가상 시착과 포즈 기반 애니메이션을 별개의 단계로 나누지 않고 하나의 통합된 단계에서 직접 비디오를 생성하여 정체성 드리프트와 의류 왜곡 문제를 해결했다.

대규모 합성 트리플렛 데이터 생성 파이프라인

인물 이미지, 의류 이미지, 결과 비디오로 구성된 학습용 트리플렛 데이터셋이 부족한 한계를 극복하기 위해 FLUX와 VLM을 활용한 자동 데이터 생성 파이프라인을 구축했다.

Dual Module 아키텍처 제안

비디오 DiT 백본을 보존하면서 인물 애니메이션 모듈(HAM)과 의류 전송 모듈(GTM)을 분리하여 설계함으로써 학습 안정성을 높이고 의류 세부 묘사와 포즈 정확도를 동시에 향상시켰다.

핵심 아이디어 이해하기

기존의 비디오 가상 시착은 먼저 옷을 입힌 이미지를 만들고 이를 애니메이션화하는 2단계 방식을 사용했다. 하지만 이 과정에서 첫 단계의 오류가 다음 단계로 전이되거나 인물의 얼굴이 미세하게 변하는 문제가 발생한다. 이는 딥러닝의 Embedding 공간에서 인물의 특징과 의류의 특징이 서로 충돌하거나 소실되기 때문이다.

Vanast는 이를 해결하기 위해 Transformer의 Attention 메커니즘을 이원화했다. 인물의 포즈와 외형을 담당하는 모듈과 의류의 질감 및 형태를 담당하는 모듈을 독립적으로 구성한 뒤, 이를 사전 학습된 비디오 생성 모델의 중간 레이어에 주입한다. 이를 통해 모델은 인물의 정체성을 유지하면서도 새로운 옷의 디테일을 정확하게 입힐 수 있게 된다.

결과적으로 이 방식은 서로 다른 두 의류 사이의 가중치를 조절하는 것만으로도 실시간으로 옷이 변하는 효과를 내는 등 기존 모델들이 구현하기 어려웠던 제로샷 보간 능력을 확보했다.

방법론

전체 아키텍처는 사전 학습된 Text-to-Video DiT 모델을 백본으로 사용하며, 여기에 Dual Module인 Human Animation Module(HAM)과 Garment Transfer Module(GTM)을 추가했다. HAM은 인물 이미지와 포즈 비디오를 입력받아 동작을 제어하고, GTM은 타겟 의류 이미지를 입력받아 의류의 세부 특징을 추출한다.

각 모듈의 출력값은 백본 DiT의 짝수 번째 블록(l=2k)에서 결합된다. 구체적으로 [이전 레이어의 은닉 상태 h_l] → [백본 블록 연산] → [HAM 결과값에 가중치 α를 곱한 값 합산] → [GTM 결과값에 가중치 β를 곱한 값 합산] 순으로 연산이 수행된다. α와 β는 각각 0.5로 설정되어 두 조건의 영향력을 균형 있게 조절하며, 이를 통해 생성된 비디오는 포즈와 의류 정보를 모두 충실히 반영한다.

학습을 위해 구축된 합성 트리플렛 파이프라인은 FLUX 인페인팅 모델을 사용한다. [원본 인물 이미지와 마스크 입력] → [LLM 기반 프롬프트로 새로운 의류 합성] → [VLM으로 품질 및 성별 일관성 검증] 과정을 거쳐 실제 데이터셋에 없는 다양한 의류 착용 사례를 생성하여 모델의 일반화 성능을 극대화했다.

주요 결과

Internet Dataset과 ViViD Dataset에서 기존 SOTA 모델들과 비교 실험을 수행했다. 이미지 기반 가상 시착 모델(CatVTON 등)과 애니메이션 모델(DisPose 등)을 조합한 2단계 파이프라인 대비, Vanast는 FID 점수에서 약 20~30% 이상의 개선을 보이며 시각적 품질의 우위를 증명했다.

Ablation Study 결과, 제안된 Dual Module 구조가 단일 모듈을 사용했을 때보다 포즈 준수 성능이 월등히 높았으며, 합성 데이터(SynthHuman)를 사용하지 않고 학습했을 때보다 의류 전송의 정확도가 크게 향상됨을 확인했다. 특히 수치적으로 FID 91.05, VFID 22.52를 기록하여 시간적 일관성 측면에서도 가장 높은 점수를 획득했다.

기술 상세

Vanast는 비디오 생성의 시간적 일관성을 위해 3D Convolutional Projection 레이어를 사용하여 인물, 의류, 포즈 토큰을 결합한다. 백본 모델의 가중치는 고정(Freeze)한 상태에서 추가된 Dual Module만 학습시키는 전략을 취해 사전 학습된 생성 능력을 보존하면서도 특정 태스크에 최적화했다. 또한 의류 보간(Garment Interpolation)을 위해 GTM의 출력 단계에서 두 의류 특징값 GA와 GB를 γ 가중치로 선형 결합하는 방식을 채택하여 추가 학습 없이도 부드러운 의상 전환 효과를 구현했다.

한계점

논문은 극단적인 포즈나 매우 복잡한 레이어드 의상의 경우 의류의 경계선 처리가 미흡할 수 있음을 언급했다. 또한 고해상도 비디오 생성 시 발생하는 연산 비용 문제에 대해서도 향후 개선이 필요함을 시사했다.

실무 활용

이 기술은 이커머스 패션 플랫폼에서 고객이 자신의 사진 한 장으로 다양한 옷을 입고 움직이는 모습을 미리 확인하는 가상 피팅 서비스에 즉시 적용 가능하다.

패션 쇼핑몰 내 '내 사진으로 입어보기' 기능 제공
SNS용 가상 패션 콘텐츠 및 숏폼 비디오 생성
의류 디자인 단계에서 다양한 체형에 따른 핏(fit) 시뮬레이션
디지털 아바타의 실시간 의상 교체 및 애니메이션 구현

코드 공개 여부: 공개

코드 저장소 보기

키워드

Virtual Try-On(가상 시착)Video Diffusion(비디오 확산 모델)Identity Preservation(정체성 보존)Garment Transfer(의류 전송)DiT(확산 트랜스포머)