ONE-SHOT: 공간 분리형 동작 주입 및 하이브리드 컨텍스트 통합을 통한 구성적 인간-환경 비디오 합성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 인간 중심 비디오 생성 모델은 인물과 배경을 독립적으로 제어하기 어렵고 복잡한 3D 전처리가 필요했다. 이 논문은 인물의 동작과 환경의 기하학적 구조를 분리하여 주입하는 방식을 통해, 추가적인 3D 정렬 과정 없이도 고품질의 상호작용 비디오를 생성할 수 있게 한다.

왜 중요한가

핵심 기여

공간 분리형 동작 주입 메커니즘

인물의 동작 프리이어를 환경 기하학 정보와 분리하여 Canonical Space에서 교차 주의(Cross-Attention)를 통해 주입함으로써, 텍스트 프롬프트에 대한 반응성을 유지하면서도 정교한 동작 제어를 실현했다.

Dynamic-Grounded-RoPE 제안

서로 다른 공간 도메인 간의 좌표 대응을 위해 회전 위치 임베딩(RoPE)을 동적으로 스케일링하는 기법을 도입하여, 명시적인 3D 정렬 없이도 비디오 그리드 상의 특정 위치에 인물을 정확히 배치했다.

하이브리드 컨텍스트 통합

정적 참조 토큰과 동적 메모리 토큰을 결합하여 장기 비디오 생성 시 발생할 수 있는 인물의 정체성 변화나 배경의 일관성 결여 문제를 해결하고 분 단위의 일관된 합성을 가능하게 했다.

핵심 아이디어 이해하기

기존 비디오 생성 모델에서 인물의 동작과 배경 정보를 동시에 입력하면 정보 밀도가 높은 배경 구조가 생성 과정을 지배하여 동작 제어가 약화되는 'Over-conditioning' 현상이 발생한다. 이는 마치 복잡한 배경 그림 위에 사람을 그리려 할 때 배경 선에 가려 사람의 자세가 흐트러지는 것과 유사하다.

이 문제를 해결하기 위해 ONE-SHOT은 인물의 동작을 배경과 완전히 분리된 표준 공간(Canonical Space)에서 정의한 뒤, 이를 Attention Mechanism을 통해 필요한 시점에만 주입한다. 이때 배경의 기하학적 정보는 별도의 경로로 입력되어 두 정보가 서로 간섭하지 않도록 설계되었다.

결과적으로 모델은 배경의 제약을 받지 않고 자유로운 동작을 생성할 수 있으며, 제안된 위치 임베딩 기법을 통해 생성된 인물을 배경의 정확한 3D 좌표에 안착시킨다. 이를 통해 사용자는 배경, 인물, 동작을 각각 독립적으로 선택하여 조합하는 '구성적(Compositional)' 합성이 가능해진다.

방법론

전체 프레임워크는 고정된 Video Foundation Model(Wan2.1)을 기반으로 하며, 경량화된 ControlNet 구조의 Conditioning Branch를 추가하여 제어 신호를 주입한다. 환경 정보(c_env)는 2D로 투영된 포인트 클라우드와 깊이 맵(Depth Map)을 통해 입력되며, 인물의 정체성(c_id)과 메모리(c_mem) 토큰이 시각적 일관성을 유지한다.

핵심인 동작 주입은 Canonical Space에서 수행된다. SMPL-X 모델로 표현된 인물 동작을 전역 이동이 제거된 표준 좌표계의 토큰(u_t)으로 변환한다. 이후 Cross-Attention 레이어에서 비디오 특징 쿼리(Q)와 동작 토큰 키/값(K, V) 사이의 연산을 수행한다. 이때 [비디오 그리드 좌표 → Dynamic-Grounded-RoPE 스케일링 → 동작 토큰 좌표와 일치] 과정을 거쳐 인물이 배경 내의 지정된 Bounding Box 영역에 정확히 렌더링되도록 유도한다.

학습은 Multi-task 전략을 사용한다. 바이너리 마스크(c_mask)를 입력으로 하여 [마스크 영역 내 합성 대상 추출 → 손실 함수 계산 → 가중치 업데이트] 순으로 진행된다. 특히 모든 파라미터를 학습시키는 대신 LoRA를 사용하여 특정 레이어만 효율적으로 최적화함으로써 VFM 본연의 생성 능력을 보존한다.

주요 결과

Traj100 데이터셋을 이용한 자기 재구성(Self-reconstruction) 실험에서 FID 16.88, FVD 181.17을 기록하며 RealisMotion(FID 18.89) 등 기존 SOTA 모델을 능가했다. 특히 동작의 부드러움(Motion Smoothness) 지표에서 0.940을 기록하여 가장 안정적인 움직임을 보여주었다.

교차 구성(Cross-composition) 실험에서도 타 모델 대비 배경 일관성(BC)과 인물 유사도(SubSim)에서 우수한 성능을 보였다. Ablation Study 결과, Dynamic-Grounded-RoPE를 제거했을 때 FID가 22.34로 크게 악화되어 공간적 대응 기능이 모델 성능의 핵심임을 입증했다.

기술 상세

ONE-SHOT은 Wan2.1-14B 모델을 백본으로 사용하며, Rectified Flow 기반의 Flow Matching 목적 함수를 최적화한다. 아키텍처의 핵심은 Decoupled Motion Cross-Attention 레이어로, 이는 표준적인 Self-Attention 이후에 추가되어 동작 정보를 주입한다. Dynamic-Grounded-RoPE는 쿼리 토큰의 위치 p=(t, x, y)에 대해 Bounding Box의 크기에 비례하는 스케일 인자 s_h, s_w를 적용하여 R(t, s_wx, s_hy) 형태로 회전 행렬을 변형한다. 이를 통해 모델은 서로 다른 해상도와 스케일을 가진 환경 도메인과 동작 도메인 사이의 기하학적 정렬을 학습한다. 또한 장기 생성을 위해 이전 프레임의 특징을 저장하는 Dynamic Context Memory를 도입하여 카메라가 이전에 방문한 지점으로 돌아왔을 때의 시각적 재현성을 확보했다.

한계점

재구성된 포인트 클라우드의 품질과 카메라 궤적의 정확도에 크게 의존한다. 포인트 클라우드가 희소하거나 노이즈가 많을 경우 배경 일관성이 저하될 수 있으며, 매우 긴 영상에서는 여전히 미세한 시간적 드리프트(Temporal Drift)가 누적될 가능성이 존재한다.

실무 활용

이 모델은 영화 제작, 광고, 게임 콘텐츠 생성 등 전문적인 영상 편집 워크플로우에서 인물과 배경을 자유롭게 조합하는 데 즉시 활용 가능하다.

특정 인물의 외형을 유지한 채 새로운 3D 배경 공간에서 복잡한 동작(예: 태극권)을 수행하는 영상 생성
기존 영상의 배경은 유지하면서 인물의 복장이나 정체성만 자연스럽게 교체하는 편집
카메라 경로를 자유롭게 조절하며 인물과 환경의 상호작용을 다각도에서 보여주는 롱테이크 영상 제작

코드 공개 여부: 공개

코드 저장소 보기

키워드

VFM(비디오 파운데이션 모델)Controllable-Video-Generation(제어 가능한 비디오 생성)Cross-Attention(교차 주의)RoPE(회전 위치 임베딩)LoRA(저순위 적응)