핵심 요약
기존 비디오 생성 모델은 손가락이 뭉개지거나 물체가 몸을 뚫고 지나가는 등 물리적 일관성이 부족한 문제가 있었다. CoInteract는 Diffusion Transformer 내부에 인간의 구조적 정보와 상호작용 기하학 제약 조건을 직접 통합하여, 추가적인 연산 비용 없이도 매우 사실적인 상호작용 비디오를 생성한다.
왜 중요한가
기존 비디오 생성 모델은 손가락이 뭉개지거나 물체가 몸을 뚫고 지나가는 등 물리적 일관성이 부족한 문제가 있었다. CoInteract는 Diffusion Transformer 내부에 인간의 구조적 정보와 상호작용 기하학 제약 조건을 직접 통합하여, 추가적인 연산 비용 없이도 매우 사실적인 상호작용 비디오를 생성한다.
핵심 기여
Human-Aware Mixture-of-Experts (MoE) 도입
손과 얼굴 같은 민감한 영역의 토큰을 공간 감독 라우팅을 통해 경량화된 지역 전문 전문가(expert)에게 할당하여 세밀한 구조적 충실도를 향상시켰다.
Spatially-Structured Co-Generation 패러다임
RGB 외관 스트림과 보조적인 HOI 구조 스트림을 동시에 모델링하는 이중 스트림 학습 방식을 통해 상호작용 기하학적 사전 지식을 모델에 주입했다.
Asymmetric Co-Attention 메커니즘
학습 시에는 두 스트림 간의 의존성을 학습하되, 추론 시에는 보조 스트림을 제거하여 추가적인 연산 오버헤드 없이 고품질 RGB 비디오만 생성할 수 있게 설계했다.
핵심 아이디어 이해하기
기존의 비디오 확산 모델은 순수하게 픽셀 수준의 RGB 데이터만 학습하기 때문에 3D 공간에서의 인간과 객체 간의 거리감이나 신체 구조에 대한 이해가 부족하다. 이로 인해 손가락이 물체 안으로 파고들거나 형태가 무너지는 '구조적 붕괴' 현상이 빈번하게 발생한다. CoInteract는 이러한 한계를 극복하기 위해 모델이 단순히 픽셀을 보는 것을 넘어 상호작용의 기하학적 구조를 이해하도록 설계되었다.
핵심 아이디어는 Diffusion Transformer(DiT)의 내부 연산 과정에 인간의 신체 구조 정보를 직접 심는 것이다. 이를 위해 모델 학습 시 실제 영상(RGB)과 함께 해당 영상의 구조적 뼈대(HOI structure)를 동시에 생성하도록 유도한다. 이 과정에서 모델의 가중치는 픽셀의 색상뿐만 아니라 물체와 손의 경계, 신체의 실루엣과 같은 물리적 제약 조건을 함께 학습하게 된다.
결과적으로 CoInteract는 별도의 후처리나 복잡한 전처리 없이도 손가락의 움직임이 정확하고 물체와의 접촉이 자연스러운 영상을 만들어낸다. 특히 추론 단계에서는 구조 정보를 생성하는 보조 브랜치를 떼어내고 학습된 지능이 내재화된 RGB 생성 경로만 사용하므로, 기존 모델과 동일한 속도로 훨씬 더 정교한 상호작용 영상을 얻을 수 있다.
방법론
CoInteract는 DiT(Diffusion Transformer) 백본을 기반으로 하며, 두 가지 핵심 모듈인 Human-Aware MoE와 Spatially-Structured Co-Generation을 통합한다. 전체 프레임워크는 인물 참조 이미지, 제품 참조 이미지, 텍스트 프롬프트, 음성 오디오를 입력받아 최종 비디오를 생성한다.
Human-Aware MoE는 얼굴과 손의 바운딩 박스 정보를 감독 신호로 사용하여 토큰을 라우팅한다. 각 토큰 xᵢ에 대해 Softmax(W_g · sg[hᵢ])를 계산하여 전문가 선택 확률을 구하고, 해당 영역(Head, Hand, Base)에 특화된 FFN(Feed-Forward Network)으로 전달한다. 이는 모델이 해부학적으로 복잡한 부위에 더 많은 계산 자원을 집중하게 하여 세부 묘사를 강화한다.
Spatially-Structured Co-Generation은 RGB 스트림 z_r과 보조 구조 스트림 z_h를 공유된 DiT 백본에서 공동 학습한다. 3D RoPE(Rotary Positional Encoding)를 사용하여 각 토큰에 (h, w, t) 좌표를 부여하며, 두 스트림을 너비(width) 방향으로 이어 붙여 공간적 대응 관계를 학습시킨다. 학습 2단계에서는 Asymmetric Co-Attention 마스크를 적용하여 RGB 쿼리는 RGB 토큰만 참조하게 하고, HOI 쿼리는 양쪽 모두를 참조하게 하여 추론 시 RGB 경로의 독립성을 보장한다.
관련 Figure

이 이미지는 RGB와 HOI 구조 스트림이 어떻게 공유 DiT 백본을 통해 처리되는지 보여준다. 특히 (c)의 MoE 구조는 라우터가 얼굴과 손 영역을 인식하여 전문 전문가에게 토큰을 배분하는 과정을 시각화하여 구조적 충실도 향상의 원리를 설명한다.
CoInteract의 전체 프레임워크 구조와 3D RoPE, Human-Aware MoE의 상세 다이어그램
주요 결과
실험 결과 CoInteract는 VLM-QA(비디오 언어 모델 기반 상호작용 평가)에서 0.72점을 기록하여 기존 SOTA 모델인 InteractAvatar(0.62)를 크게 앞질렀다. 특히 손의 구조적 품질을 나타내는 HQ 지표에서 0.724를 달성하여 물리적 일관성이 비약적으로 향상되었음을 입증했다.
Ablation Study에 따르면 보조 구조 스트림(Co-Gen)을 제거했을 때 VLM-QA 점수가 0.72에서 0.48로 33.3% 급감하여, 기하학적 감독이 물리적 타당성 확보에 필수적임을 보여주었다. 또한 MoE 모듈은 추론 비용을 단 4%만 증가시키면서도 손의 선명도와 얼굴의 정체성 보존 능력을 유의미하게 개선했다.
관련 Figure

생성된 RGB 영상과 대응되는 HOI 구조 영상을 나란히 배치하여 두 스트림 간의 정교한 시공간적 동기화를 증명한다. 하단의 히트맵은 라우터가 실제로 얼굴과 손 위치를 정확히 식별하여 전문가를 할당하고 있음을 보여준다.
이중 스트림 공동 생성 및 MoE 라우팅 결과의 시각화
기술 상세
CoInteract의 아키텍처는 WanS2V를 베이스라인으로 하며, DiT 블록 내부에 Human-Aware MoE를 직접 삽입한 구조다. MoE는 기존 DiT의 FFN을 공유 전문가(Shared Expert)로 재사용하고, 머리(Head), 손(Hand), 기본(Base)을 담당하는 3개의 경량 FFN을 추가하여 파라미터 증가를 최소화했다. 라우터 학습 시에는 stop-gradient 연산을 적용하여 라우터 최적화가 DiT의 표현 학습을 방해하지 않도록 설계했다.
학습은 2단계로 진행된다. 1단계에서는 전체 양방향 Attention을 통해 RGB와 구조 스트림 간의 결합을 유도하고, 2단계에서는 비대칭 코-어텐션(Asymmetric Co-Attention) 마스크를 적용한다. 이 마스크는 M_i,j = 1 (if i ∈ T_r, j ∈ T_r 또는 i ∈ T_h, j ∈ T_r ∪ T_h)로 정의되어, RGB 생성 경로가 구조 브랜치 없이도 독립적으로 작동할 수 있게 한다. 이를 통해 추론 시에는 구조 브랜치를 제거하여 연산 효율성을 극대화한다.
실무 활용
이 모델은 이커머스 제품 시연 영상 제작이나 가상 마케팅 분야에서 즉시 활용 가능하다. 특히 인물과 제품 사진 한 장씩만으로 자연스러운 상호작용 영상을 만들 수 있어 콘텐츠 제작 비용을 획기적으로 줄여준다.
- 이커머스 플랫폼의 가상 모델 제품 시연 비디오 자동 생성
- 디지털 광고를 위한 개인화된 아바타 기반 제품 홍보 영상 제작
- 가상 비서 및 교육용 콘텐츠 내 자연스러운 도구 조작 애니메이션 구현
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.