TL;DR
본 논문은 사용자가 의복과 상호작용하는 영상에서 물리적 변형을 실시간으로 반영하는 인터랙티브 비디오 가상 피팅(Interactive VVT)을 formalize한다. 기존 VVT 연구는 비상호작용 상황에 주로 집중해 상호작용의 의미 해석이 부족했으며 2D 포즈로는 깊이 정보를 잃어 구체적 동작을 구별하기 어렵다. iTryOn은 garment-agnostic한 3D hand prior, 글로벌 캡션 및 시간 스탬프가 있는 액션 캡션으로 what과 when을 명확히 하여 복잡한 물리적 변형을 학습하게 한다. 또한 Action-aware Rotational Position Embedding(A-RoPE)과 action-aware constraint loss를 도입해 학습의 안정성과 상호작용 프레임의 비율이 큰 상황에서도 정확한 시퀀싱과 접촉을 보장한다. 이를 통해 실제 쇼핑·콘텐츠 제작 시나리오에 필요한 다이나믹하고 제어 가능한 VVT를 가능하게 한다.
왜 중요한가
본 논문은 사용자가 의복과 상호작용하는 영상에서 물리적 변형을 실시간으로 반영하는 인터랙티브 비디오 가상 피팅(Interactive VVT)을 formalize한다. 기존 VVT 연구는 비상호작용 상황에 주로 집중해 상호작용의 의미 해석이 부족했으며 2D 포즈로는 깊이 정보를 잃어 구체적 동작을 구별하기 어렵다. iTryOn은 garment-agnostic한 3D hand prior, 글로벌 캡션 및 시간 스탬프가 있는 액션 캡션으로 what과 when을 명확히 하여 복잡한 물리적 변형을 학습하게 한다. 또한 Action-aware Rotational Position Embedding(A-RoPE)과 action-aware constraint loss를 도입해 학습의 안정성과 상호작용 프레임의 비율이 큰 상황에서도 정확한 시퀀싱과 접촉을 보장한다. 이를 통해 실제 쇼핑·콘텐츠 제작 시나리오에 필요한 다이나믹하고 제어 가능한 VVT를 가능하게 한다.
핵심 기여
Interactive VVT 정의 및 VVT-Interact 데이터셋 구축
Interactive Video Virtual Try-On(Interactive VVT)을 체계적으로 정의하고, 5,292쌍의 비디오-의복으로 구성된 VVT-Interact 데이터셋을 제시하며 인터랙션 성공 평가를 위한 ISR 지표를 도입한다.
iTryOn 프레임워크와 멀티-레벨 인터랙션 주입
대규모 비디오 diffusion Transformer를 기반으로 3D hand prior 및 Context Blocks를 통한 공간 가이드와 Interaction Guider를 결합하여 물리적 상호작용을 제어한다.
Fine-grained spatial guidance with garment-agnostic 3D hand prior
HaMeR로 추출한 garment-agnostic 3D hand prior를 사용해 손-의류 접촉의 위치·방향·거리 정보를 정밀하게 가이드하고 의복 기하학 누출을 줄인다.
Action-aware Semantic Guidance 및 A-RoPE 도입
global caption과 time-stamped action captions으로 what/when를 명확히 하고 A-RoPE를 통해 인터랙션 세그먼트에 대한 텍스트-비디오 정합을 시간적으로 정밀화한다.
Action-aware Constraint Loss로 학습 안정화
AC loss로 인터랙션 프레임에 대한 감독 신호를 집중적으로 적용해 희소한 상호작용의 학습을 안정화하고 물리적 타당성을 높인다.
ISR 지표 및 VVT-Interact 벤치마크 평가
인터랙션의 의미적 성공 여부를 VLM 기반으로 평가하는 ISR를 도입하고 ViViD 및 VVT-Interact 벤치마크에서 우수한 성능을 입증한다.
핵심 아이디어 이해하기
- 2D 포즈만으로는 상호작용의 깊이와 방향성을 포착하기 어렵다. 2) 3D hand prior를 도입해 손의 형태/방향/근접성을 직접 제시하고, 글로벌 캡션과 타임스탬프 기반 액션 캡션으로 무엇을 언제 수행할지 명확히 한다. 3) A-RoPE로 인터랙션이 실제로 발생하는 구간에만 텍스트-비디오 정합의 포커스를 두고, AC loss로 학습 신호를 인터랙션 프레임에 집중시킨다. 4) 이 조합은 복잡한 물리적 변형의 학습을 안정화하고 시퀀스의 시간적 정확성을 개선한다.
방법론
- 전체 접근: Vsrc, G, 포즈 시퀀스 Vpose, clothing-agnostic representation Vagn, 그리고 구체적 가이던스 c를 입력으로 받아 V_hat = F(Vsrc, G, C)로 출력을 생성한다. 2) 공간적 가이드: 3D-hand prior(Vhand)을 Interaction Guider에 주입하고, Pose/Vagn과의 결합을 DiT의 토큰에 더한다. 3) 의미적 가이드: 글로벌 캡션과 시간 스탬프가 달린 액션 캡션을 Text embedding으로 변환해 텍스트-비디오cross-attention에 반영하고, A-RoPE를 통해 interactive 세그먼트의 쿼리/키에만 위치 인코딩을 적용한다. 4) 학습 제약: L = E_t,z_t,c,v ||v_theta(z_t, t, c) - v||^2 + lambda E_t,z_t,c,v ||M_action ⊙ (v_theta(z_t, t, c) - v)||^2로 AC loss를 도입하고, M_action은 인터랙션 프레임에 1, 비인터랙션 프레임에 0을 매핑한다. 5) 데이터 및 학습: ViViD 데이터로 초기화한 뒤 VVT-Interact에서 2단계 학습으로 학습하고, 81프레임/576×768 해상도, 50 denoising steps, 8× A100에서 실행한다.
관련 Figure

아키텍처 구성요소와 모듈 간 상호작용을 시각화하여 methodology의 주요 요소를 보강한다.
iTryOn 아키텍처 다이어그램(전반적 구조)

3D 핸드 프라이어의 역할과 공간 가이드의 연결성을 보여준다.
Interaction Guider가 3D-hand prior와 컨텍스트를 융합

의복 의존 없이 작동하는 핸드 프라이어의 정당성을 시각적으로 제시한다.
Garment-agnostic 3D hand prior 예시

액션 캡션과 A-RoPE의 시간적 정합성 보장을 설명한다.
Action-aware Semantic Guidance의 타임-스탬프 및 A-RoPE

ablation이 성능 개선에 미치는 영향을 시각적으로 보여준다.
ablation의 결과 차이
주요 결과
주요 벤치마크에서 iTryOn은 시각적 일관성과 텍스트-비디오 정합에서 우수하다. VFIDp=22.4640, VFIDpR=0.6033, SSIM=0.7849, LPIPS=0.1217, VFIDu=35.0479, VFIDuR=1.2378이다. FVDp=380.5578, ISRp=0.6100, FVDu=393.0552, ISRu=0.6147로 인터랙션 시퀀스의 물리적 품질과 시간적 안정성을 향상시켰다. ISR은 0.6100으로 다른 방법들보다 우수했고, 전체적으로 61% 이상의 인터랙션 성공률을 달성한다. 추가로, ablation 연구에서 Data, Spatial Guidance, Semantic Guidance, AC loss의 순차적 도입이 VFID/ISR 등 지표를 점진적으로 개선한다. 비인터랙티브 ViViD 벤치마크에서도 SOTA 수준의 품질을 보인다.
관련 Figure

실제 인터랙션에 대한 시각적 예시를 통해 성능의 semantic 정확성과 물리적 반응을 확인시켜준다.
인터랙션 예시(rolling sleeves, adjusting hem)
기술 상세
Wan2.1-VACE를 기반으로 하는 DiT 백본 위에 Context Blocks와 Interaction Guider를 병렬 주입한다. Interaction Guider는 HaMeR로부터 제공받은 3D hand prior를 이용해 손-의류 접촉의 구체적 좌표와 방향을 제시하고, Global Caption과 Action Caption은 텍스트 임베딩으로 변환되어 Cross-Attention에 공급된다. A-RoPE는 Q/K에 시간 인덱스 기반의 RoPE 인코딩을 적용해 인터랙션 구간에서만 강한 텍스트-비디오 연관을 만들고, non-interaction 프레임은 null 캡션으로 처리한다. AC loss는 인터랙션 프레임에 대해 추가적인 지도 신호를 제공하여 학습 안정성과 상호작용의 물리적 정합성을 높인다. 데이터 측면에서 VVT-Interact는 5,292개의 비디오-의복 쌍과 글로벌 캡션 및 시간 스탬프 캡션을 포함한다.
한계점
의상 세부(지퍼/단추 등)에 대한 명시적Reasoning이 부족해 비현실적 상호작용이 발생하는 경우가 있다. ISR 외의 미세 물리적 정확도 평가 지표 개발은 남은 과제이다.
실무 활용
인터랙티브 VVT를 활용해 라이브 스트리밍 쇼핑, 가상 피팅 서비스 및 콘텐츠 제작에 적용 가능하다.
- 라이브 스트리밍에서 지퍼 열기 등 인터랙션 동작을 시각화하여 의상의 반응을 보여준다.
- 쇼핑 플랫폼에서 사용자가 손동작으로 옷의 핏과 드레이프를 확인하도록 하는 인터랙티브 피팅 시나리오를 제공한다.
- 패션 포트폴리오/소셜 콘텐츠에서 사용자의 제스처에 의류가 반응하도록 제작한다.
- 인터랙션 데이터 생성 및 시나리오별 테스트를 위한 합성 데이터 생성 파이프라인으로 활용한다.
코드 공개 여부: 미확인
키워드
용어 해설
- 3D hand prior
- — 의복-손 상호작용에서 손의 형태·방향·거리 정보를 3D로 제공하여 의복과의 접촉을 더 정밀하게 예측하는 기하학적 신호.
- A-RoPE
- — 타임스탬프가 포함된 액션 캡션과 비디오 세그먼트를 정렬하기 위해 회전 위치 임베딩을 확장한 시퀀스 모델 기법.
- Interaction Guider
- — 3D hand prior와 포즈 정보를 이용해 손-의류 접촉의 미세한 가이드를 제공하는 모듈.
- Interaction Success Rate
- — 주어진 상호작용이 VLM 기반 프레임 수준 검증에서 semantically 인식되고 손동작과 일치하는지 평가하는 지표.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.