핵심 요약
기존 비디오 생성 모델은 레이아웃, 조명, 카메라 궤적이 서로 얽혀 있어 정밀한 제어가 어려웠다. 이 논문은 3D 장면 속성을 명시적으로 분리하여 물리적으로 정확한 조명 효과와 카메라 움직임을 구현함으로써 가상 프로덕션 및 영화 제작의 활용 가능성을 높였다.
왜 중요한가
기존 비디오 생성 모델은 레이아웃, 조명, 카메라 궤적이 서로 얽혀 있어 정밀한 제어가 어려웠다. 이 논문은 3D 장면 속성을 명시적으로 분리하여 물리적으로 정확한 조명 효과와 카메라 움직임을 구현함으로써 가상 프로덕션 및 영화 제작의 활용 가능성을 높였다.
핵심 기여
LiVER 프레임워크 제안
명시적인 3D 장면 속성을 기반으로 비디오 합성을 제어하는 디퓨전 기반 프레임워크를 구축했다. 렌더러 기반 에이전트를 통해 텍스트 지시사항을 3D 제어 신호로 변환한다.
LiVERSet 데이터셋 구축
객체 레이아웃, 조명(HDR 환경 맵), 카메라 파라미터가 정밀하게 주석 처리된 11,000개 이상의 고해상도 비디오 데이터셋을 공개했다. 실사 데이터와 합성 데이터를 모두 포함한다.
조명 기반 장면 프록시 설계
3D 엔진에서 렌더링된 Diffuse, Glossy GGX, Rough GGX 등 2D 렌더 패스를 스택 형태로 구성하여 물리적으로 정확한 조명 단서를 비디오 모델에 주입한다.
단계별 학습 전략 도입
조건부 경로 학습, 공동 LoRA 미세 조정, 조명 다양성 확장으로 이어지는 3단계 학습 전략을 통해 모델의 생성 품질을 유지하면서 제어 능력을 극대화했다.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 텍스트 프롬프트에 의존하여 장면을 생성하므로 그림자, 반사, 주변 폐쇄(Ambient Occlusion)와 같은 복잡한 물리적 상호작용을 정확히 묘사하지 못하는 한계가 있다. 이는 모델이 장면의 기하학적 구조와 조명 조건을 하나의 잠재 공간에서 모호하게 학습하기 때문이다.
LiVER는 이를 해결하기 위해 3D 렌더링 엔진의 원리를 활용한다. 텍스트를 직접 비디오로 바꾸는 대신, 먼저 텍스트에서 3D 장면 그래프를 추론하고 이를 통해 물리 기반 렌더링(PBR) 결과물인 '장면 프록시(Scene Proxy)'를 생성한다. 이 프록시는 빛이 물체 표면에서 어떻게 반사되는지를 결정하는 BRDF(양방향 반사도 분포 함수) 개념을 반영한 여러 층의 이미지 데이터로 구성된다.
결과적으로 비디오 디퓨전 모델은 이 정교한 물리적 가이드를 입력받아 픽셀을 생성하므로, 카메라가 움직이거나 조명 위치가 바뀌어도 물체의 질감과 그림자가 물리 법칙에 맞게 실시간으로 변화하는 고화질 비디오를 생성할 수 있게 된다.
방법론
LiVER의 핵심은 렌더러 기반 에이전트 추론과 조명 기반 비디오 생성 모듈의 결합이다. 에이전트는 사용자 프롬프트를 분석하여 객체 카테고리, 공간 관계, 조명 분위기를 파악하고 이를 바탕으로 3D 자산 라이브러리에서 적절한 메쉬를 배치하여 3D 장면을 구성한다.
장면 프록시 생성 단계에서는 Blender 렌더러를 사용하여 Diffuse, Rough GGX, Glossy GGX의 세 가지 구성 요소를 추출한다. [3D 메쉬와 조명 환경 맵 입력 → PBR 렌더링 연산 수행 → 9채널의 스택 이미지 출력 → 물리적 조명 및 레이아웃 정보 포함] 과정을 거친다. 이 프록시는 장면의 복잡한 조명을 기본 조명 성분으로 분해하여 모델에 전달한다.
비디오 생성부에서는 Wan2.2-5B 모델을 백본으로 사용하며, 경량화된 Proxy Encoder와 Adapter를 추가했다. [9채널 프록시 입력 → 2D 컨볼루션 블록 연산 → 잠재 공간 특징량 추출 → 비디오 잠재 코드에 잔차(Residual) 방식으로 더함]의 과정을 통해 조명 조건을 주입한다. 학습 시에는 α라는 학습 가능한 스칼라 가중치를 0에서 시작하여 점진적으로 프록시의 영향력을 높이는 전략을 사용한다.
관련 Figure

텍스트 프롬프트가 에이전트를 통해 3D 자산과 조명 조건으로 변환되고, 이것이 다시 9채널의 장면 프록시로 렌더링되어 DiT 기반 비디오 모델에 주입되는 전체 흐름을 설명한다. Proxy Adapter가 어떻게 비디오 잠재 공간에 정보를 통합하는지 시각화한다.
LiVER의 전체 파이프라인 다이어그램으로, 에이전트 추론, 장면 프록시 생성, 비디오 디노이징 과정을 보여준다.
주요 결과
LiVER-Real 테스트 세트에서 FVD 32.45, FID 42.32를 기록하며 기존 SOTA 모델인 CameraCtrl(FVD 48.03) 및 MotionCtrl(FVD 63.13) 대비 우수한 비디오 품질과 실사성을 입증했다. 특히 텍스트와의 일관성을 나타내는 CLIP 점수에서 29.62를 기록하여 가장 높은 수치를 보였다.
제어 정확도 측면에서도 카메라 궤적 오차(ATE) 1.30, 조명 오차(LE) 0.05를 달성하여 비교 모델들보다 정밀한 제어가 가능함을 확인했다. 사용자 평가(User Study) 결과, 비디오 품질(83.4%), 장면 제어(83.3%), 조명 제어(59.3%) 등 모든 항목에서 압도적인 선호도를 기록했다.
Ablation Study를 통해 합성 데이터(LiVER-Syn)를 혼합하여 학습하는 것이 조명 다양성을 확보하고 모델이 특정 조명 패턴에 과적합되는 것을 방지하는 데 필수적임을 증명했다. 합성 데이터 없이 학습한 경우 조명 변화가 거의 없는 평면적인 결과가 도출되었다.
관련 Figure

조명 환경 맵을 회전시킴에 따라 물체 표면의 하이라이트와 그림자가 연속적이고 물리적으로 타당하게 변화하는 모습을 보여준다. 이는 모델이 장면의 기하학적 구조와 조명을 성공적으로 분리하여 제어하고 있음을 증명한다.
HDR 환경 맵 조작을 통한 물리적으로 일관된 조명 변화 생성 예시.

합성 데이터(SynData)가 없을 경우 조명 효과가 부정확하게 나타나며, 단계별 학습(staged)이 없을 경우 비디오 품질이 저하되는 것을 시각적으로 비교하여 제안된 방법론의 유효성을 입증한다.
합성 데이터 사용 여부 및 단계별 학습 전략에 따른 절제 실험 결과 비교.
기술 상세
LiVER 아키텍처는 Flow-matching 기반의 비디오 디퓨전 모델을 기반으로 하며, 3D 장면 정보를 주입하기 위해 2D 컨볼루션 기반의 Conditioning Encoder를 채택했다. 이는 3D 컨볼루션의 연산 부담을 피하면서도 프레임별 조명 변화를 효과적으로 포착한다.
데이터셋 구축 과정에서 실사 비디오의 3D 구조를 복원하기 위해 VGGT를 이용한 카메라 포즈 추정, Grounding DINO와 SAM 2를 이용한 객체 세그멘테이션, DiffusionLight-Turbo를 이용한 HDR 환경 맵 추정 파이프라인을 설계했다. 이를 통해 수집된 데이터는 물리 기반 렌더링의 정답지(Ground Truth) 역할을 수행한다.
학습 전략은 총 3단계로 구성된다. 1단계에서는 백본을 고정하고 프록시 인코더만 학습하여 제어 신호를 정렬한다. 2단계에서는 LoRA를 통해 백본 모델과 인코더를 공동 최적화하여 시각적 품질과 제어력의 균형을 맞춘다. 3단계에서는 실사와 합성 데이터를 1:1 비율로 혼합하여 조명 렌더링의 일반화 성능을 극대화한다.
한계점
초기 3D 재구성 단계에서 장면 기하학이 거칠게(coarse) 복원될 경우, 모델이 미세한 기하학적 디테일과 재질을 합성하기 위해 텍스트 프롬프트에 과도하게 의존하게 된다. 이로 인해 최종 출력물의 품질이 사용자 프롬프트의 정교함에 민감하게 반응하는 한계가 있다.
실무 활용
LiVER는 3D 장면 편집 기능을 갖춘 비디오 생성 도구로, 사용자가 생성된 장면의 조명이나 카메라 경로를 사후에 자유롭게 수정할 수 있는 유연한 워크플로우를 제공한다.
- 가상 프로덕션: 특정 시간대의 햇빛이나 조명 조건을 정밀하게 설정한 배경 영상 생성
- 영화 및 광고 제작: 텍스트 지시만으로 복잡한 카메라 워킹과 물리적으로 일관된 특수 효과 구현
- 3D 자산 시각화: 기존 3D 모델을 실사 비디오 환경에 자연스럽게 합성하고 조명을 동적으로 변경
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.