핵심 요약
기존 비디오 생성 AI는 화면 속 물체의 입체감이나 카메라 움직임이 어색하게 변하는 기하학적 불일치 문제를 겪었다. 이 논문은 비디오를 픽셀로 변환하지 않고도 내부 데이터인 Latent Space에서 직접 입체 정보를 파악해 학습시키는 기술을 통해, 훨씬 더 안정적이고 현실적인 영상을 효율적으로 생성할 수 있게 한다.
왜 중요한가
기존 비디오 생성 AI는 화면 속 물체의 입체감이나 카메라 움직임이 어색하게 변하는 기하학적 불일치 문제를 겪었다. 이 논문은 비디오를 픽셀로 변환하지 않고도 내부 데이터인 Latent Space에서 직접 입체 정보를 파악해 학습시키는 기술을 통해, 훨씬 더 안정적이고 현실적인 영상을 효율적으로 생성할 수 있게 한다.
핵심 기여
Latent Geometry Model(LGM) 제안
비디오 확산 모델의 Latent Space와 Geometry Foundation Model을 연결하여, VAE Decoding 없이 잠재 변수에서 직접 4D 기하학 정보를 추출하는 경량 커넥터 구조를 구축했다.
잠재 공간 기반 GRPO 프레임워크 구축
픽셀 공간이 아닌 Latent Space에서 직접 보상을 계산하는 Group Relative Policy Optimization 프레임워크를 통해 학습 효율성을 높이고 메모리 사용량을 절감했다.
4D 기하학적 일관성 보상 설계
카메라 움직임의 부드러움을 측정하는 보상과 시점 간의 기하학적 일관성을 강제하는 Reprojection Consistency 보상을 도입하여 동적인 장면에서도 일관성을 유지하게 했다.
학습 및 추론 효율성 극대화
보상 계산 과정에서 VAE Decoding을 제거하여 계산 시간을 24.5% 단축하고 GPU 메모리 점유율을 약 10% 줄이는 성과를 거두었다.
핵심 아이디어 이해하기
비디오 확산 모델은 시각적 품질은 높지만 프레임 간의 물리적 연결성을 이해하지 못해 물체가 찌그러지거나 카메라가 흔들리는 현상이 발생한다. 기존에는 이를 해결하기 위해 생성된 영상을 다시 이미지(RGB)로 변환하는 VAE Decoding 후 외부 모델로 입체감을 확인했는데, 이 과정은 매우 느리고 메모리 소모가 크며 노이즈에 취약하다는 한계가 있었다.
VGGRPO는 비디오의 압축된 형태인 Latent Space에서 직접 입체 정보를 읽어내는 Latent Geometry Model(LGM)을 도입한다. LGM은 확산 모델의 중간 데이터를 입력받아 카메라의 위치나 물체의 깊이를 바로 예측한다. 이는 영상의 겉모습을 다 그린 뒤 검사하는 것이 아니라, 밑그림 단계에서 이미 입체 구조가 올바른지 실시간으로 확인하는 것과 같다.
이렇게 얻은 입체 정보를 바탕으로 GRPO라는 강화학습 기법을 적용한다. 카메라가 갑자기 튀지 않게 부드럽게 움직이도록 유도하고, 서로 다른 각도에서 본 장면들이 하나의 입체 구조로 잘 맞아떨어지는지 보상을 주어 모델이 스스로 물리적으로 타당한 영상을 만들도록 정렬한다. 결과적으로 추가적인 영상 변환 과정 없이도 견고하고 일관된 4D 비디오 생성이 가능해진다.
방법론
Latent Geometry Model(LGM)은 비디오 VAE Encoder의 출력인 잠재 변수 z를 입력으로 받아 Geometry Foundation Model의 중간 레이어와 연결하는 3D Convolutional Connector를 통해 학습된다. [잠재 변수 z 입력 → 3D Convolution 연산 → 중간 특징 공간 매핑 → 기하학 정보 출력] 과정을 거쳐 RGB Decoding 없이 카메라 포즈, 깊이 맵, 포인트 맵 등을 직접 예측한다.
Latent-space GRPO는 샘플링된 비디오 그룹 내에서 상대적인 Advantage를 계산하여 정책을 업데이트한다. 보상 함수 r(z)는 Latent Space에서 LGM을 통해 계산된다. [잠재 변수 z0 입력 → LGM 통과 → 4D 기하학 정보 획득 → 보상 점수 산출] 순서로 진행되어 연산 효율을 높인다.
Camera Motion Smoothness Reward는 예측된 카메라 중심 좌표로부터 속도 v와 가속도 a를 계산한다. [가속도 a와 속도 v 입력 → ||a|| / (||v_i|| + ||v_{i-1}||) 연산 → 스칼라 값 출력] 과정을 통해 가속도가 작고 속도가 일정할수록 높은 보상을 부여하여 매끄러운 카메라 이동을 유도한다.
Geometry Reprojection Consistency Reward는 포인트 맵 P를 다른 프레임의 카메라 파라미터 C로 투영하여 렌더링된 깊이 D_hat을 생성한다. [포인트 맵과 카메라 파라미터 입력 → 재투영 연산 → 렌더링된 깊이와 예측 깊이 비교 → 오차 산출] 과정을 거쳐 시점 간 구조적 일치도를 평가하며, 오차가 큰 상위 3개 시점에 집중하여 보상을 계산한다.
주요 결과
Wan2.1-1B 및 Wan2.2-5B 모델 기반 실험 결과, VGGRPO는 정적 장면과 동적 장면 모두에서 기존 SFT, Epipolar-DPO, VideoGPA 대비 높은 Visual Quality(VQ)와 Motion Quality(MQ) 승률을 기록했다. 특히 동적 장면에서 MQ 점수가 베이스라인 대비 약 10-15%p 이상 향상되었다.
VBench 일반화 성능 평가에서 Subject Consistency(0.9644), Background Consistency(0.9583) 등 대부분의 지표에서 최고 성능을 보였다. 이는 기하학적 정렬이 전반적인 영상의 질을 높이는 정규화 역할을 수행함을 입증한다.
효율성 분석 결과, 픽셀 공간 기반 보상 방식 대비 보상 계산 시간을 54.73초에서 41.33초로 24.5% 단축시켰으며, 피크 GPU 메모리 사용량도 76.80GB에서 68.57GB로 줄여 대규모 모델 학습에 적합한 효율성을 보였다.
기술 상세
아키텍처는 비디오 확산 모델의 DiT 블록에 LoRA를 적용하여 파인튜닝하며, 보상 계산을 위해 별도의 LGM 유닛을 병렬로 배치한다. LGM은 Any4D와 같은 사전 학습된 기하학 모델의 앞부분 레이어를 3D Convolutional Connector로 대체하여 잠재 변수와의 Feature Alignment를 수행한다.
학습 알고리즘은 Flow-matching 기반의 GRPO를 사용한다. 결정론적인 ODE를 확률적인 SDE로 변환하여 샘플의 다양성을 확보하며, 중요도 샘플링 비율 계산 시 가우시안 역방향 커널을 사용하여 로그 확률의 미분 가능성을 보장한다.
보상 정규화 과정에서 Motion Reward와 Geometry Reward는 서로 다른 스케일을 가지므로 그룹 내에서 각각 평균과 표준편차로 정규화한 뒤 평균을 내어 최종 Advantage를 산출한다. 이는 특정 보상 항목이 전체 학습을 지배하는 현상을 방지한다.
구현 세부사항으로 LoRA rank=32, alpha=64를 사용하며, 학습 시 메모리 병목을 줄이기 위해 Denoising Reduction 전략(학습 시 10단계, 추론 시 40-50단계)을 채택하여 데이터 수집 속도를 높였다.
한계점
LGM이 사전 학습된 기하학 모델의 성능에 의존하며, 매우 복잡하거나 텍스처가 부족한 장면에서는 기하학적 예측이 부정확할 수 있다. 또한 현재의 보상 설계가 주로 정적인 배경의 일관성에 초점을 맞추고 있어, 극도로 복잡한 동적 물체의 변형을 완벽히 제어하는 데는 한계가 있을 수 있다.
실무 활용
비디오 생성 모델의 물리적 일관성을 높여야 하는 실무 환경에서 매우 유용하며, VAE Decoding 생략을 통해 강화학습 기반 정렬 작업의 비용을 크게 낮출 수 있다.
- 가상 현실(VR) 및 시뮬레이션용 안정적인 3D 배경 영상 생성
- 로봇 학습(Embodied AI)을 위한 물리적으로 타당한 비디오 데이터셋 구축
- 영화 및 광고 제작 시 카메라 워킹의 흔들림을 최소화한 고품질 영상 합성
- 기존 비디오 확산 모델의 추론 단계에서 추가 학습 없이 기하학적 품질을 개선하는 가이드 기법
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.