왜 중요한가
여러 사람이 등장하는 비디오를 생성할 때 특정 인물에게 정확한 옷이나 소품을 입히는 것은 매우 어렵습니다. 이 논문은 인물의 신원과 속성을 명시적으로 연결하는 기술을 통해, 복잡한 장면에서도 각 인물의 특징이 뒤섞이지 않고 일관되게 유지되는 고품질 비디오 생성을 가능하게 합니다.
핵심 기여
관계형 데이터 수집 파이프라인 구축
독립된 비디오에서 캡션과 시각적 조건을 추출하고 MLLM을 활용해 인물별 속성 의존성을 추론 및 할당하는 자동화된 데이터 생성 체계를 구축함.
Relational Self-Attention 모듈 도입
R2PE와 CSAM을 통해 인물과 속성 간의 결합을 강화하고 서로 다른 인물 그룹 간의 간섭을 억제하여 신원 혼동 문제를 해결함.
Relational Cross-Attention 및 MCAM 설계
시각적 토큰과 텍스트 토큰 간의 상관관계를 3단계로 정의하는 MCAM을 도입하여 인물별 속성의 의미론적 정렬 성능을 향상시킴.
핵심 아이디어 이해하기
Transformer 아키텍처의 Self-Attention은 시퀀스 내의 모든 토큰이 서로를 참조하도록 설계되어 전역적인 문맥 파악에 유리하다. 하지만 다중 인물이 등장하는 비디오 생성에서는 이 전역적 참조 특성 때문에 'A라는 사람의 얼굴' 임베딩이 'B라는 사람의 옷차림' 텍스트 토큰과 잘못 연결되는 속성 엉킴(Attribute Entanglement) 문제가 발생한다. 이는 모델이 각 인물과 그에 딸린 속성 간의 개별적인 의존 관계를 명시적으로 파악하지 못하기 때문이다. LumosX는 이를 해결하기 위해 관계형 위치 임베딩(R2PE)과 어텐션 마스킹(CSAM, MCAM)을 도입한다. R2PE는 인덱스 계산 시 동일한 인물 그룹에 속한 얼굴과 옷 토큰이 같은 시간적 위치 정보를 공유하게 하여, 모델이 임베딩 단계에서부터 이들을 하나의 개체로 인식하게 돕는다. 여기에 CSAM 마스크를 적용해 서로 다른 인물 그룹 간의 정보 흐름을 차단함으로써, 각 인물의 특징이 독립적으로 처리되도록 연산 범위를 제한한다. 또한 MCAM을 통해 시각적 토큰과 텍스트 토큰 사이의 상관관계를 강제한다. 이는 특정 인물의 시각적 형상이 그 인물을 설명하는 단어들에만 강하게 반응하도록 유도하여, 복잡한 프롬프트에서도 인물별 신원과 속성이 뒤섞이지 않는 정교한 비디오 생성을 가능하게 한다.
방법론
LumosX는 Wan2.1 텍스트-비디오 생성 모델을 기반으로 하며, DiT(Diffusion Transformer) 블록 내부에 관계형 어텐션 모듈을 통합함. 데이터 구성 단계에서는 VILA와 Qwen2.5-VL을 사용하여 비디오에서 인물, 객체, 배경을 분리하고 각 인물에게 정확한 속성 태그를 매칭함. Relational Self-Attention은 R2PE를 사용하여 동일한 인물 그룹 내의 토큰들이 동일한 시간 인덱스를 공유하고 공간적으로 확장되도록 설계함. CSAM(Causal Self-Attention Mask)은 비디오 노이즈 토큰이 조건 토큰을 단방향으로만 참조하게 하며, 동일 그룹 내의 인물-속성 토큰 간의 상호작용만 허용하여 간섭을 차단함. Relational Cross-Attention은 MCAM(Multilevel Cross-Attention Mask)을 도입하여 시각적 토큰과 텍스트 토큰 간의 관계를 제어함. [시각 토큰 Q와 텍스트 토큰 K를 입력으로 하여 내적 연산을 수행하고, 여기에 MCAM 가중치와 동적 스케일링 인자 s를 더한 결과값에 Softmax를 취함으로써 특정 인물의 시각적 토큰이 해당 인물을 묘사하는 텍스트 토큰에만 집중되도록 가중치를 배분함]
주요 결과
LumosX는 단일 및 다중 인물 비디오 생성 실험에서 기존 SOTA 모델인 Phantom 및 SkyReels-A2를 능가하는 성능을 보였다. 특히 신원 일관성을 측정하는 ArcSim 지표에서 다중 인물 설정 시 0.485를 기록하여 Phantom(0.434) 대비 우수한 결과를 얻었다. 의미론적 정렬을 평가하는 ViCLIP-V 점수에서도 0.932를 달성하며 텍스트 프롬프트에 대한 높은 충실도를 입증했다. Ablation Study를 통해 각 모듈의 기여도를 검증한 결과, R2PE와 CSAM을 결합했을 때 신원 혼동이 가장 적게 발생했다. MCAM의 강도를 조절하는 하이퍼파라미터 r을 0.5로 설정했을 때, 인물 간의 독립성을 유지하면서도 전체적인 비디오의 자연스러움과 품질이 가장 잘 조화되는 것으로 나타났다. 추론 효율성 측면에서도 MagiAttention 메커니즘을 적용하여 커스텀 마스크 연산으로 인한 부하를 줄였다. H20 GPU에서 테스트한 결과, 모든 모듈을 활성화한 상태에서도 단계별 지연 시간이 6.11초 수준으로 유지되어 실무적인 활용이 가능한 수준의 연산 효율성을 확보했다.
실무 활용
개인화된 광고 제작, 가상 영화 제작, 이커머스 등 여러 인물과 특정 브랜드 아이템이 동시에 등장해야 하는 고정밀 비디오 생성 분야에 즉시 활용 가능함. 특히 인물별 신원 보존이 중요한 상업적 영상 콘텐츠 제작에 큰 이점을 제공함.
- 특정 연예인 모델이 브랜드 의상을 입고 활동하는 광고 영상 생성
- 사용자의 사진을 기반으로 여러 친구가 함께 등장하는 가상 여행 영상 제작
- 웹툰이나 게임 캐릭터의 신원과 복장을 유지하며 애니메이션화
기술 상세
LumosX는 Wan2.1의 DiT 블록 내부에 Relational Self-Attention과 Relational Cross-Attention을 통합한 구조를 가진다. R2PE는 3D-RoPE의 위치 인덱스 할당 로직을 수정하여, 배경과 객체는 순차적으로 인덱스를 부여하되 인물 그룹 내의 얼굴(face)과 속성(attribute) 토큰은 동일한 i-index를 공유하고 j, k-index 방향으로 확장되도록 설계하여 구조적 의존성을 부여한다. CSAM은 비디오 노이즈 토큰이 조건부 토큰을 참조할 때 동일 그룹 내의 정보만 수용하도록 하는 불리언 마스크다. [비디오 토큰 q와 조건 토큰 k의 카테고리 정보를 입력으로 하여, 두 토큰이 동일한 인물 그룹에 속하는지 여부를 논리 연산으로 판별하고, 결과가 True인 경우에만 어텐션 점수를 유지하여 인물 간의 시각적 특징 혼합을 차단함] MCAM은 시각 토큰(Q)과 텍스트 토큰(K) 간의 상관관계를 1(강한 상관), 0(일반), -1(약한 상관)의 세 단계로 정의한다. 동일한 인물 그룹에 속한 시각-텍스트 쌍에는 1을 부여하여 결합을 강화하고, 타 그룹 간에는 -1을 부여하여 간섭을 억제한다. 이때 효율적인 연산을 위해 Q를 공간적으로 다운샘플링하여 유사도 행렬의 동적 스케일링 인자 s를 계산하는 근사 기법을 사용한다. 데이터 파이프라인에서는 VILA를 통해 상세 캡션을 생성하고, Qwen2.5-VL을 사용하여 캡션 내의 단어와 영상 속 인물을 매칭하는 'Entity Words Retrieval' 단계를 거친다. 이후 GroundingDINO와 SAM으로 각 개체를 분리하고 FLUX 인페인팅 모델로 배경을 정제하여, 모델 학습에 필요한 고품질의 관계형 데이터셋을 구축한다.
한계점
모델 크기와 학습 데이터의 다양성에 의해 성능이 제한될 수 있으며, 현재 3명 이하의 인물에 최적화되어 있음. 또한 걷기나 달리기와 같은 복잡한 동작 제어를 위한 모션 제약 조건 통합이 향후 과제로 남아 있음.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.