WILDACTOR: 제약 없는 신원 보존형 비디오 생성

왜 중요한가

기존 비디오 생성 AI는 얼굴에만 집중하거나 몸의 움직임이 고정되는 한계가 있었다. 이 논문은 대규모 데이터셋과 새로운 어텐션 기법을 통해 다양한 각도와 역동적인 움직임 속에서도 인물의 전신 정체성을 완벽하게 유지하는 기술을 제시했다.

핵심 기여

Actor-18M 데이터셋 구축

160만 개의 비디오와 1,800만 개의 이미지로 구성된 대규모 전신 신원 보존 데이터셋을 구축하여 다양한 시점과 환경 데이터를 제공했다.

Asymmetric Identity-Preserving Attention (AIPA) 제안

비디오 토큰이 신원 정보를 참조하되, 신원 토큰은 비디오의 노이즈에 영향을 받지 않도록 비대칭적 정보 흐름을 설계하여 정체성 손실을 방지했다.

Viewpoint-Adaptive Monte Carlo Sampling 도입

학습 시 중복되는 시점을 억제하고 상호 보완적인 시점의 참조 이미지를 우선적으로 선택하도록 가중치를 동적으로 조정했다.

핵심 아이디어 이해하기

기존의 비디오 생성 모델은 주로 Self-Attention을 사용하여 모든 토큰 간의 관계를 계산했다. 하지만 인물의 신원을 유지하려 할 때, 참조 이미지의 정적인 특징이 비디오의 동적인 움직임 생성을 방해하여 인물이 굳어버리는 Pose Locking 현상이 발생하거나, 시점이 바뀔 때 얼굴이나 옷의 질감이 변하는 Identity Drift가 일어나는 한계가 있었다. WILDACTOR는 이를 해결하기 위해 Asymmetric Identity-Preserving Attention(AIPA)을 도입했다. 이는 비디오 토큰이 참조 이미지의 신원 정보를 일방적으로 쿼리할 수 있게 하되, 참조 이미지 토큰은 비디오의 노이즈 섞인 특징으로부터 격리시켰다. 이를 통해 모델의 기본 생성 능력을 해치지 않으면서도 정확한 신원 정보만 주입했다. 또한, 학습 과정에서 특정 시점에 데이터가 편중되는 문제를 해결하기 위해 몬테카를로 샘플링 기반의 시점 적응형 전략을 사용했다. 이미 선택된 시점과 유사한 각도의 이미지는 가중치를 낮추고, 새로운 각도의 정보를 제공하는 이미지를 더 많이 학습하게 함으로써 어떤 각도에서도 일관된 인물을 생성했다.

방법론

WILDACTOR는 Rectified Flow 기반의 Latent Video DiT 아키텍처를 기반으로 한다. 입력 비디오를 VAE 인코더를 통해 잠재 공간으로 변환하고, 텍스트 프롬프트와 얼굴/전신 참조 이미지를 조건으로 하여 비디오를 생성했다. 핵심인 AIPA 메커니즘은 두 단계로 작동한다. 먼저 참조 토큰들끼리 독립적인 Self-Attention을 수행하여 통합된 신원 표현을 형성했다. 이후 비디오 토큰을 Query로, 비디오 토큰과 신원 표현의 결합을 Key와 Value로 사용하여 비대칭 융합을 수행했다. [비디오 토큰과 신원 표현을 입력으로] -> [비디오 토큰을 Query로, 둘의 결합을 Key/Value로 하는 Cross-Attention을 수행해] -> [신원 정보가 반영된 새로운 비디오 토큰을 얻고] -> [이 값이 다음 레이어로 전달되어 일관된 외형을 가진 프레임을 생성했다.] Identity-Aware 3D RoPE(I-RoPE)를 통해 비디오 토큰과 참조 토큰의 위치 정보를 명확히 구분했다. 비디오 토큰은 정규 시간 인덱스를 따르지만, 참조 토큰에는 고정된 시간 오프셋을 부여하여 모델이 정적인 신원 정보와 동적인 움직임 정보를 혼동하지 않게 했다.

주요 결과

제안된 Actor-Bench에서 WILDACTOR는 Face Identity(0.559)와 Body Consistency(0.952) 점수에서 기존 SOTA 모델인 Vidu Q2 및 Kling 1.6과 대등하거나 능가하는 성능을 보였다. 특히 전신 일관성 면에서 큰 폭의 향상을 기록했다. Ablation Study 결과, AIPA를 일반적인 Full-Attention으로 대체했을 때 의미론적 일관성이 0.920에서 0.610으로 급격히 하락했다. 이는 참조 이미지의 정적 정보가 텍스트 프롬프트의 움직임 지시사항과 충돌하기 때문임을 확인했다. Viewpoint-Adaptive 샘플링 전략은 정면 편향이 심한 원본 데이터 대비 평균 전신 일관성을 0.952로 끌어올렸다. 특히 측면과 후면 시점에서의 일관성 유지 능력이 비약적으로 상승했다.

실무 활용

고품질의 디지털 휴먼 비디오 제작이나 영화/애니메이션의 일관된 캐릭터 생성에 즉시 활용 가능하다. 특히 복잡한 카메라 워킹이나 역동적인 액션이 포함된 숏에서도 인물의 외형이 변하지 않아 실무적 가치가 높다.

영화 및 애니메이션의 일관된 캐릭터 비디오 생성
가상 피팅 및 패션 모델의 다각도 워킹 영상 제작
개인화된 AI 아바타 기반의 스토리텔링 콘텐츠 제작
게임 내 캐릭터의 시네마틱 컷신 자동 생성

기술 상세

모델은 5B 파라미터 규모의 DiT 아키텍처를 기반으로 하며, rank-128의 LoRA를 QKV 및 출력 프로젝션 레이어에 적용하여 효율적으로 파인튜닝되었다. 총 0.29B의 학습 가능한 파라미터를 추가했다. Actor-18M 데이터셋은 데이터 불균형을 해결하기 위해 세 가지 서브셋으로 구성된다. 서브셋 A는 시점 변환 에디팅을 통한 시점 다양화, B는 속성 에디팅을 통한 환경/조명 다양화, C는 정규 3면도 앵커를 제공했다. AIPA의 Reference-only LoRA는 백본의 가중치를 고정한 채 참조 토큰의 프로젝션 행렬에만 적용된다. [참조 토큰을 입력으로] -> [기존 가중치에 학습된 저순위 행렬을 더한 값과 행렬 곱 연산을 수행해] -> [참조 토큰 전용의 Query, Key, Value 벡터를 얻고] -> [이를 통해 백본의 일반적인 생성 능력은 보존하면서 신원 특징만 정교하게 추출했다.] 학습은 16개의 NVIDIA H100 GPU에서 80K 스텝 동안 진행되었으며, 256p 해상도에서 시작해 480p로 단계적으로 확장하는 전략을 취했다.

한계점

현재 구현은 단일 인물 비디오 생성에 집중되어 있다. 여러 인물을 동시에 다룰 경우 어텐션 메커니즘 내에서 신원 특징이 섞이는 문제가 발생할 수 있으며, 복잡한 상호작용이 포함된 다인원 시나리오는 향후 과제로 남아있다.

키워드

Video Generation(비디오 생성)Identity Preservation(신원 보존)Diffusion Transformer(확산 트랜스포머)Actor-18M(액터-18M 데이터셋)Asymmetric Attention(비대칭 어텐션)