기하학적 일관성을 위한 양적 비디오 월드 모델 평가

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

생성 비디오의 시각적 품질은 높아졌지만 3D 기하학적 일관성은 여전히 불일치한다. PDI-Bench는 2D 픽셀 동역학을 3D 세계 좌표로 올려 기하학적 잔차를 산출하고, Scale–Depth, 3D Motion, 3D Structural Rigidity의 다차원 잔차를 결합해 물리적 환각을 구분한다. 이로써 소위 ‘월드 모델’의 물리적 일관성 평가에 필요한 정량적 기준이 제시된다.

왜 중요한가

핵심 기여

PDI‑Bench 프레임워크 제안

2D 픽셀Dynamics를 3D 기하학적 추론으로 전환해 물리적 환각을 탐지하는 정량적 프레임워크를 제시한다.

Perspective Distortion Index(PDI) 도입

3개의 직교 잔차(Scale-Depth, Trajectory, Rigidity)를 가중합으로 결합하는 지표 체계를 정의하고, 각 잔차는 스케일-깊이 비례성, 3D 운동 일관성, 구조적 강성을 각각 독립적으로 평가한다.

PDI-Dataset 구축

183개의 비디오 시퀀스와 28개의 텍스트 프롬프트, 6개의 SoTA 생성 모델을 포함하는 기하일관성 전용 벤치마크를 제공한다.

정량적 진단 및 스테스트 시나리오

5개 스트레스-테스트 시나리오(Longitudinal Convergence, Dynamic Tracking, Biological Motion, Curved Motion, Partial Occlusion)에서 기하학적 일관성 저하를 포착하고 제시한다.

핵심 아이디어 이해하기

출발점과 한계: 2D 영상의 perceptual 품질은 높아졌으나 물체의 3D 구조 및 운동의 물리적 제약 충족 여부를 판단하기 어렵다. 기존 벤치마크는 FVD/CLIP 같은 픽셀-기반 또는 의미 기반 점수에 의존해 기하학적 실패를 민감하게 포착하지 못한다.해결 원리: Target-Uplift-Anchor 파이프라인으로 2D 관측을 3D 포맷으로 올리고, MegaSaM으로 월드-공간 포인트맵과 카메라 포즈를 추정한 뒤 CoTracker3으로 앵커 포인트를 3D로 리프팅한다. 이렇게 얻은 q_nt 트랙을 이용해 3D 스케일-깊이 잔차, 3D 트랙 잔차, 3D 구조 강성 잔차를 계산한다.차별점: RMSE를 Scale 및 Traj 잔차에 적용해 큰 이상치를 민감하게 포착하고, Rigidity 잔차는 MAD/평균의 분산으로 비정상적 내부 변형을 견고하게 측정한다. 3D 세계 공간에서 카메라ego-motion과의 비의존적 평가를 통해 2D 프레임 단위의 한계를 극복한다.적용 가능성: 183비디오의 벤치마크로 SoTA 생성모델의 기하학적 한계를 구체적으로 진단하며, 물리적 인지 능력이 필요한 로봇-에이전트 시나리오에 대한 평가 도구로 활용된다.수치적 정당화: GT(실사) 비디오의 PDI Score는 0.1206으로 낮은 편이며, Seedance 2.0은 0.2422, CogVideoX-3은 0.2480, Veo 3.1은 0.4521 등으로 측정된다. SOTA 모델에서 Scale 잔차(h1) 및 변동성의 표준편차가 커지는 경향이 관찰된다.

방법론

Step 0: 입력 비디오를 수집한다. Step 1: Semantic Targeting(SAM 2)을 통해 auditing 대상의 마스크를 얻고 픽셀 높이 h_t 및 경계(boundary)를 산출한다. Step 2: 3D Geometric Uplifting(MegaSaM)을 사용해 깊이 시퀀스 {Z_t}, 초점거리 f 및 카메라 포즈를 얻고, 픽셀마다 월드 좌표계로 매핑된 P_world를 얻는다. Step 3: 3D Structural Anchoring(CoTracker3)을 통해 2D 픽셀-공간 Trajectories를 얻고, 이를 MegaSaM 포인트맵의 인덱스로 이용해 각 추적 앵커를 3D 좌표 q_nt로 업리프팅한다. Step 4: 세 잔차를 계산해 PDI 잔차 ϵ_t(scale), ϵ_traj, ϵ_rigid(타임-평균 MAD 기반)로 구성하고, PDI Score = w1 RMSE(ϵ_scale) + w2 RMSE(ϵ_traj) + w3 ϵ_rigid_y를 구성한다( w1=w2=0.4, w3=0.2). Step 5: 재구성 품질 guards를 통해 MegaSaM의 재투영 정확도, 마스크 일치 여부를 검증한다. Step 6: GT 기반 Normalize를 적용해 PDI-Score를 산출한다.

주요 결과

Table 1의 벤치마크 결과를 제시한다. GT의 PDI Score는 0.1206이다. Seedance 2.0은 0.2422, CogVideoX-3은 0.2480, Veo 3.1은 0.4521, Wan 2.2는 0.5595, Sora는 0.8255, HunyuanVideo는 0.8825이다. 이는 geometric-일관성이 perceptual 품질보다 더 큰 갭이 있음을 시사한다. Table 2의 Human Expert Study는 전문가 평가가 자동 평가와 일치함을 확인했다(평균 점수 GT 1.57±1.00, Seedance 2.96, CogVideoX-3 2.97 등). Self-Forcing AR 분석(Table 3)은 AR가 시퀀스를 129프레임으로 확장할 때 Scale 잔차 ϵ_scale이 크게 증가해 공간적 memory 이탈과 스케일-깊이 분리 붕괴를 일으켰음을 보인다. Longitudinal Convergence, Biological Motion 등 각 카테고리에서 ϵ_scale, ϵ_traj, ϵ_rigid의 수치가 GT 대비 차이를 보이며, Curved Motion과 Partial Occlusion에서 특히 큰 차이를 보인다.

기술 상세

아키텍처 구조: Target-Uplift-Anchor 파이프라인으로 2D 영상Dynamics를 3D 세계 좌표로 매핑한다. Semantic Targeting은 SAM 2와 Florence-2를 이용해 auditing 대상의 2D 경계를 확정하고 h_t를 산출한다. 3D Geometric Uplifting은 MegaSaM으로 depth 시퀀스 {Z_t}, focal length f, 카메라 포즈를 추정하고 월드-좌표계 포인트맵 P_world ∈ R^{T×H×W×3}를 얻는다. 3D Structural Anchoring은 CoTracker3을 통해 2D Trajectory를 얻고 이를 3D로 리프팅해 q_nt를 얻는다.핵심 수학/알고리즘 기초: Scale-Depth 잔차 ϵ_scale은 h_t와 Z_t의 곱이 상수에 근접하는지의 로그 잔차이며, Trajectory 잔차 ϵ_traj는 C_t의 3D 속도/가속도에서 도출된 스칼라 및 방향성 잔차의 합으로 구성된다. Rigidity 잔차 ϵ_rigid_y는 초기 앵커 간의 3D 거리의 변동성(MAD/샘플링된 쌍의 평균)으로 정의되며, 세 잔차의 가중합으로 PDI를 산출한다. Prior work 대비 차별점: FVD/IS 같은 픽셀-기반 평가나 VLM 기반의 높은 수준 평가가 다루지 않는 3D 기하학적 일관성을 explicit하게 잔차화한다. MegaSaM-CoTracker3 기반의 3D 업리프팅/추적 체계가 카메라 ego-motion과의 결합 없이 물체의 자체 운동을 평가할 수 있도록 한다. PDI 잔차는 RMSE를 Scale/Traj에, MAD 기반의 Robust 잔차를 Rigidity에 적용해 비선형 변형과 큰 이상치에 견고하게 대응한다.구현 및 실험 세부사항: PDI-Dataset은 183비디오, 28 프롬프트, 6 모델(Wan2.2, HunyuanVideo, CogVideoX-3, Seedance 2.0-Fast, Sora, Veo 3.1-Fast)을 포함한다. 프레임률은 24fps, 프레임 수는 96–300프레임으로 표준화되며 해상도는 512×512로 조정된다. 벤치마크의 재현성 보장을 위해 Anchor 샘플링에 다중 Seed를 사용하고 GT-Anchored Normalize를 적용한다.

한계점

논문에서 명시한 한계로, off-the-shelf perception 모듈 의존성으로 인해 3D 업리프팅이 실패하는 경우 2D 프록시로 대체되어 깊이 인식이 떨어질 수 있다. Rigidity 잔차는 강성이 완전하게 비관찰되는 경우에 반영되지 않으며, 강체 가정하에 기하학적 한계를 다루므로 비강체/연성 물체에는 한계가 있다. 단안 시각 정보만으로 3D 회전을 충분히 분리하는 것은 불가능에 가까워 Model Consensus를 통해 일부 오탐을 줄이지만 여전히 노이즈가 남을 수 있다.

실무 활용

PDI-Bench는 생성 비디오의 기하학적 일관성을 정량적으로 평가하는 도구로, 3D 공간 구조의 위배를 진단하고 모델 개선 지표를 제공한다.

생성 비디오 모델의 기하학적 일관성 비교 및 모니터링
연구 개발에서 물리 기반 제약 도입 전후의 효과 분석
리얼월드 응용에서의 안전성/신뢰성 평가
다중 모델 간 점진적 개선 로드맵 수립

코드 공개 여부: 공개

코드 저장소 보기

키워드

PDI-Bench(프레임워크)SAM 2MegaSaMCoTracker33D 모션 일관성3D 구조 강성Perspective Distortion IndexPDI-Dataset