핵심 요약
기존 비디오 편집 모델들은 특정 입력과 출력 쌍에 고정되어 있어 다양한 작업을 수행하려면 각각 별도의 모델을 학습시켜야 했다. UniVidX는 하나의 통합된 프레임워크 내에서 텍스트, 이미지, 비디오 등 다양한 조건을 자유롭게 조합하여 15가지 이상의 비디오 생성 및 편집 작업을 수행할 수 있게 한다. 특히 1,000개 미만의 적은 데이터로도 강력한 일반화 성능을 보여주어 데이터 효율성을 극대화했다.
왜 중요한가
기존 비디오 편집 모델들은 특정 입력과 출력 쌍에 고정되어 있어 다양한 작업을 수행하려면 각각 별도의 모델을 학습시켜야 했다. UniVidX는 하나의 통합된 프레임워크 내에서 텍스트, 이미지, 비디오 등 다양한 조건을 자유롭게 조합하여 15가지 이상의 비디오 생성 및 편집 작업을 수행할 수 있게 한다. 특히 1,000개 미만의 적은 데이터로도 강력한 일반화 성능을 보여주어 데이터 효율성을 극대화했다.
관련 Figure

UniVid-Intrinsic과 UniVid-Alpha 두 모델이 각각 역렌더링, 리라이팅, 매팅, 인페인팅 등 15가지 작업을 수행함을 보여준다. 1,000개 미만의 적은 학습 데이터로도 동물과 같은 미학습 도메인에 대해 강력한 일반화 성능을 가짐을 시각화한다.
UniVidX 프레임워크가 지원하는 다양한 비디오 생성 및 편집 패러다임(Text→X, X→X, Text&X→X)과 데이터 효율성을 보여주는 예시 도표이다.
핵심 기여
Stochastic Condition Masking (SCM) 도입
학습 과정에서 입력 모달리티를 무작위로 조건과 타겟으로 분할하여 모델이 고정된 매핑이 아닌 전방향 조건부 생성을 학습하도록 한다.
Decoupled Gated LoRA (DGL) 설계
각 모달리티별로 독립적인 LoRA를 할당하고 타겟 모달리티일 때만 활성화하여 파라미터 간 간섭을 방지하고 VDM의 강력한 사전 지식을 보존한다.
Cross-Modal Self-Attention (CMSA) 제안
모달리티 간에 Key와 Value를 공유하고 Query만 개별적으로 유지하여 서로 다른 시각적 층 사이의 일관성과 정렬을 보장한다.
핵심 아이디어 이해하기
기존의 Video Diffusion Model(VDM)은 텍스트에서 비디오를 생성하는 데 탁월하지만, 특정 시각적 조건(예: RGB에서 깊이 맵 추출)을 처리할 때는 입출력 구조가 고정되어 유연성이 떨어진다. UniVidX는 이를 해결하기 위해 모든 시각적 모달리티를 동일한 잠재 공간(Latent Space)에 배치하고, 학습 시 어떤 것이 입력(Condition)이고 어떤 것이 출력(Target)인지 무작위로 정하는 Stochastic Condition Masking을 사용한다.
이 과정에서 서로 다른 특성을 가진 모달리티(예: 색상 정보인 Albedo와 기하 정보인 Normal)가 섞이면 성능이 저하될 수 있는데, 이를 위해 각 모달리티 전용의 '길잡이' 역할인 Decoupled Gated LoRA를 배치한다. 이 길잡이는 해당 모달리티를 생성해야 할 때만 작동하여 기존 모델이 가진 비디오 생성 능력을 해치지 않으면서 새로운 모달리티의 특성을 학습한다.
최종적으로 Cross-Modal Self-Attention을 통해 여러 모달리티가 서로의 정보를 참조하게 함으로써, 생성된 결과물들이 물리적으로 일관성을 갖게 한다. 예를 들어 로봇이 요리하는 비디오를 만들 때, RGB 영상과 그에 대응하는 표면 법선(Normal) 맵이 프레임 단위로 완벽하게 일치하도록 유도한다.
방법론
UniVidX는 Wan2.1-T2V 14B 모델을 백본으로 사용하며, 모든 입력 데이터를 VAE Encoder를 통해 잠재 공간으로 변환한 뒤 배치(Batch) 차원으로 결합하여 처리한다.
Stochastic Condition Masking(SCM) 단계에서는 전체 모달리티 집합 Z를 타겟 Z_tgt와 조건 Z_cond로 무작위 분할한다. 타겟 데이터에는 노이즈를 추가하고, 조건 데이터는 깨끗한 상태를 유지하여 Flow Matching 목적 함수를 통해 속도 필드 v_theta를 예측하도록 학습한다. [노이즈가 섞인 타겟 z_t와 깨끗한 조건 z_1^C를 입력으로] → [네트워크 v_theta 연산을 수행해] → [예측된 속도 벡터를 얻고] → [이 값이 실제 데이터와 노이즈 사이의 방향 벡터 v와 일치하도록 최적화한다].
Decoupled Gated LoRA(DGL)는 각 모달리티 k에 대해 저순위 행렬 A_k, B_k를 할당한다. 가중치 업데이트 Delta W_k = B_k A_k를 계산한 후, 게이트 값 m_k(타겟이면 1, 조건이면 0)를 곱해 최종 가중치 W' = W + m_k * Delta W_k를 형성한다. [모달리티별 학습된 행렬을 입력으로] → [행렬 곱셈과 게이트 필터링을 수행해] → [모달리티 특화 가중치를 얻고] → [파라미터 간섭 없이 특정 모달리티의 분포를 학습한다].
Cross-Modal Self-Attention(CMSA)은 각 모달리티의 Key(k_i)와 Value(v_i)를 모두 연결하여 k_shared, v_shared를 만든다. [각 모달리티의 개별 Query q_i와 공유된 k, v를 입력으로] → [Softmax(q_i * k_shared^T / sqrt(d)) * v_shared 연산을 수행해] → [통합된 문맥 정보를 얻고] → [모달리티 간의 시각적 정렬과 일관성을 확보한다].
관련 Figure

입력 데이터가 SCM을 통해 조건과 타겟으로 나뉘고, DiT 블록 내에서 DGL 게이트가 타겟 모달리티에만 활성화되는 과정을 상세히 설명한다. CMSA를 통해 모든 모달리티가 Key/Value를 공유하여 상호 작용하는 구조를 명시한다.
SCM, DGL, CMSA가 포함된 UniVidX의 전체 아키텍처 다이어그램이다.
주요 결과
UniVid-Intrinsic 모델은 924개의 실내 비디오 클립으로 구성된 InteriorVid 데이터셋에서 단 6,000 스텝만 학습했음에도 불구하고, SOTA 모델인 IntrinsiX 및 Ouroboros보다 높은 PSNR(Albedo 16.89)과 낮은 MAE(Normal 11.09)를 기록하며 정밀한 역렌더링 성능을 입증했다.
UniVid-Alpha 모델은 VideoMatte240K 데이터셋의 484개 비디오로 5,000 스텝 학습하여 비디오 매팅(Video Matting) 작업에서 MAD 4.24를 달성했다. 이는 추가적인 세그멘테이션 마스크를 입력으로 사용하는 Mask-Guided 방식들(AdaM, MaGGIe 등)보다도 우수한 수치이며, 배경 누수 현상을 획기적으로 줄였다.
사용자 평가(User Study) 결과, 텍스트-내재 속성 생성(Text-to-Intrinsic)과 텍스트-RGBA 생성 작업 모두에서 시각적 품질, 텍스트 정렬도, 모달리티 일관성 지표에서 기존 베이스라인을 크게 상회하는 점수를 받았다.
관련 Figure

기존 모델(IntrinsiX)에서 발생하는 모달리티 간 불일치와 아티팩트를 UniVidX가 성공적으로 해결했음을 보여준다. 특히 고양이 털과 같은 미세한 질감과 복잡한 기하 구조가 RGB, Albedo, Normal 맵 사이에서 완벽하게 정렬됨을 확인할 수 있다.
텍스트-내재 속성 생성 작업에서 UniVid-Intrinsic과 기존 IntrinsiX 모델의 결과물을 비교한 이미지이다.

정적인 이미지 생성에 국한된 기존 방식과 달리 UniVid-Alpha는 고품질의 동적 RGBA 비디오를 생성할 수 있음을 입증한다. 단일 공유 프레임워크를 통해 전경, 배경, 알파 채널이 일관되게 분리되는 성능을 보여준다.
텍스트-RGBA 생성 작업에서 UniVid-Alpha와 LayerDiffuse의 비디오 생성 결과를 비교한 자료이다.
기술 상세
UniVidX 아키텍처는 Diffusion Transformer(DiT) 블록을 기반으로 하며, 모든 시각적 모달리티를 배치 차원으로 쌓아 병렬 처리하는 구조를 취한다. 이는 채널 결합(Channel Concatenation) 방식이 입력 컨볼루션 레이어를 새로 학습해야 하여 사전 지식을 손상시키는 문제를 해결한다.
학습 전략 측면에서, 14B 파라미터의 거대 모델을 효율적으로 튜닝하기 위해 LoRA를 사용하되, 각 모달리티가 타겟일 때만 해당 LoRA가 활성화되도록 설계하여 '파괴적 간섭'을 방지했다. 이는 모델이 RGB 데이터의 풍부한 시맨틱 정보를 유지하면서도 Normal이나 Alpha 같은 특수 모달리티의 분포를 정확히 포착하게 한다.
구현 세부사항으로는 NVIDIA H100 GPU 4대를 사용해 BFloat16 정밀도로 학습을 진행했으며, 480p 해상도에서 최대 21프레임의 비디오를 처리할 수 있다. 데이터 효율성 면에서 1,000개 미만의 비디오로도 강력한 성능을 내는 것은 사전 학습된 VDM의 풍부한 물리적/시맨틱 사전 지식을 성공적으로 전이했음을 시사한다.
한계점
현재 UniVid-Intrinsic과 UniVid-Alpha는 두 도메인의 데이터를 동시에 포함하는 데이터셋의 부재로 인해 별도의 모델로 구현되어 있다. 또한 14B 백본 모델의 높은 VRAM 요구량으로 인해 한 번에 최대 4개의 모달리티만 동시 처리가 가능하며, 유리와 같은 투명한 물체의 Normal 추정이나 Alpha 값 예측에서 데이터 편향으로 인한 오차가 발생할 수 있다.
실무 활용
UniVidX는 단일 모델로 영상 리라이팅, 재질 편집, 배경 교체 등 다양한 영상 제작 워크플로우를 통합할 수 있어 실무 효율성이 매우 높다.
- Video Relighting: 기존 영상의 기하 구조를 유지하면서 조명 조건(예: 낮에서 밤으로)만 변경
- Material Editing: 영상 내 특정 객체의 색상(Albedo)이나 질감(Normal)을 텍스트로 수정
- Video Inpainting: 영상 내 특정 인물을 제거하거나 새로운 객체로 자연스럽게 대체
- Video Matting: 복잡한 배경에서 인물이나 객체를 정밀하게 분리하여 RGBA 레이어 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.