핵심 요약
기존 비디오 생성 모델은 시각적 화질은 뛰어나지만 중력이나 관성 같은 물리 법칙을 무시하는 경우가 많습니다. Phantom은 물리 정보를 학습하는 별도의 브랜치를 도입하여 외부 시뮬레이터 없이도 현실 세계의 역학을 정확히 따르는 영상을 생성하며, 이는 로보틱스나 가상 시뮬레이션 분야의 발전에 기여할 수 있습니다.
왜 중요한가
기존 비디오 생성 모델은 시각적 화질은 뛰어나지만 중력이나 관성 같은 물리 법칙을 무시하는 경우가 많습니다. Phantom은 물리 정보를 학습하는 별도의 브랜치를 도입하여 외부 시뮬레이터 없이도 현실 세계의 역학을 정확히 따르는 영상을 생성하며, 이는 로보틱스나 가상 시뮬레이션 분야의 발전에 기여할 수 있습니다.
핵심 기여
시각 및 물리 역학의 공동 모델링 프레임워크
비디오의 시각적 콘텐츠와 잠재적 물리 상태를 하나의 통합된 생성 과정 내에서 동시에 모델링하는 Phantom 프레임워크를 제안했다.
이중 브랜치 Flow Matching 아키텍처
사전 학습된 비디오 생성기(비디오 브랜치)와 물리 전용 브랜치를 결합하고, 양방향 Cross-Attention을 통해 생성 과정 중에 물리적 단서와 시각적 증거를 교환한다.
물리 인식 잠재 표현 활용
직관적 물리에 대한 이해도가 높은 V-JEPA2의 임베딩 공간을 물리적 상태의 잠재 표현으로 사용하여 명시적인 물리 속성 정의 없이도 복잡한 상호작용을 학습한다.
물리적 일관성 벤치마크 SOTA 달성
VideoPhy 벤치마크에서 물리적 일관성(PC) 점수를 기존 모델 대비 50.4% 개선했으며, Physics-IQ 및 VBench-2 등 다수의 평가 지표에서 우수한 성능을 입증했다.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 주로 '다음 프레임의 픽셀이 어떻게 보일지'를 예측하는 데 집중합니다. 이는 시각적으로는 그럴듯해 보일 수 있지만, 공이 바닥에 닿았을 때 튀어 올라야 한다는 중력의 원리나 액체가 컵에 담기는 역학적 과정을 내면화하지 못하는 한계가 있습니다. Transformer 기반의 모델들이 방대한 데이터를 학습하더라도 물리 법칙 자체를 추론하기보다는 단순히 과거의 시각적 패턴을 암기하는 경향이 있기 때문입니다.
Phantom은 이 문제를 해결하기 위해 비디오 생성 과정을 '그림 그리기'와 '물리 추론'이라는 두 가지 트랙으로 분리합니다. 딥러닝에서 Embedding은 데이터를 고차원 벡터로 표현하는 핵심 개념인데, Phantom은 시각적 특징을 담는 일반적인 Embedding 외에도 물체의 움직임이나 상호작용 같은 물리적 정보를 전문적으로 다루는 '물리 인식 잠재 공간(Physics-aware Latent Space)'을 별도로 운영합니다.
이 두 트랙은 생성 과정 내내 서로 정보를 주고받습니다. 물리 브랜치가 '지금 공이 바닥에 충돌했다'는 물리적 상태를 계산하면, 비디오 브랜치는 이 정보를 바탕으로 공이 찌그러지거나 튀어 오르는 시각적 프레임을 그려냅니다. 결과적으로 모델은 단순히 픽셀의 변화를 쫓는 것이 아니라, 장면 이면에 흐르는 물리적 인과관계를 계산하며 영상을 만들어내게 됩니다.
방법론
Phantom은 사전 학습된 Wan2.2-TI2V 모델을 기반으로 하며, 시각적 흐름을 담당하는 Video Branch와 물리적 역학을 담당하는 Physics Branch로 구성된 이중 구조를 가집니다. 입력 비디오는 VAE Encoder를 통해 시각적 잠재 변수 v로 변환되고, 동시에 V-JEPA2 Encoder를 통해 물리적 잠재 변수 z로 인코딩됩니다. 이 두 변수는 각각의 브랜치에 입력되어 미래의 상태를 예측하는 Flow Matching 과정을 거칩니다.
핵심 메커니즘은 두 브랜치 사이에 삽입된 Vis-Attention과 Phy-Attention 모듈입니다. Video Branch의 중간 상태 h_v와 Physics Branch의 상태 h_z가 주어질 때, Softmax((W_q_v * h_v)(W_k_v * h_z)^T / sqrt(d))(W_v_v * h_z) 연산을 통해 시각적 브랜치가 물리적 정보를 참조하도록 합니다. 이는 시각적 생성 과정이 물리적 추론 결과에 가이드되도록 강제하는 역할을 합니다.
학습 시에는 Video Branch의 가중치를 고정(Freeze)하여 기존의 강력한 시각 생성 능력을 보존하고, Physics Branch와 Cross-Attention 레이어만 학습시키는 Selective Adaptation 전략을 사용합니다. 또한 물리 손실 함수 L_z의 그래디언트가 시각 손실 함수 L_v보다 훨씬 커서 학습이 불안정해지는 문제를 해결하기 위해, 물리 손실의 가중치 alpha_z를 주기적으로 조절하는 Recursive Loss-weight Scheduling 기법을 도입했습니다.
관련 Figure

이 도식은 Phantom의 핵심인 이중 브랜치 구조를 설명합니다. 상단의 물리 브랜치(Phy-Attention)와 하단의 비디오 브랜치(Vis-Attention)가 서로의 상태를 참조하며 미래의 시각적 속도와 물리적 속도를 동시에 예측하는 과정을 시각화합니다.
Phantom의 전체 아키텍처 다이어그램으로, 비디오 브랜치와 물리 브랜치가 병렬로 구성되어 Cross-Attention으로 연결된 구조를 보여줍니다.
주요 결과
VideoPhy 벤치마크 실험 결과, Phantom은 베이스 모델인 Wan2.2-TI2V 대비 물리적 일관성(PC) 점수가 25.2에서 37.9로 50.4% 향상되었습니다. 텍스트와의 의미적 일치도(SA) 또한 14.5% 개선되어 물리적 제약이 오히려 시각적 정확도를 높이는 데 기여함을 보여주었습니다. VideoPhy-2에서도 PC 점수 71.74를 기록하며 VideoREPA(72.54)와 대등한 수준의 성능을 보였습니다.
실제 영상의 물리적 추론 능력을 측정하는 Physics-IQ 벤치마크에서는 단일 프레임 조건에서 29.59점을 기록하여 베이스 모델(22.10점)을 크게 앞질렀습니다. 특히 Spatial IoU 지표에서 49.4%의 개선을 보여 물체의 위치와 궤적을 예측하는 능력이 비약적으로 상승했음을 입증했습니다.
VBench-2 평가에서는 종합 점수 51.84를 기록하며 시각적 품질을 유지하면서도 물리(Physics) 항목에서 40.19에서 43.61로 6.0% 향상된 결과를 얻었습니다. 세부 항목 중 인간 해부학적 정확도(Human Anatomy)와 구도(Composition)에서도 유의미한 성능 향상이 관찰되었습니다.
관련 Figure

Phantom이 중력에 따른 공의 바운싱이나 액체의 점성 흐름을 베이스 모델보다 훨씬 사실적으로 재현함을 보여줍니다. 특히 베이스 모델이 놓치는 물리적 연속성을 Phantom이 정확히 유지하고 있음을 확인할 수 있습니다.
공 튀기기, 액체 따르기, 비눗방울, 풍선 크기 변화 등 다양한 시나리오에서 베이스 모델과 Phantom의 생성 결과를 비교한 이미지입니다.
기술 상세
Phantom의 아키텍처는 Wan2.2-TI2V의 DiT(Diffusion Transformer) 구조를 미러링한 Physics Branch를 병렬로 배치한 형태입니다. 물리적 상태를 표현하기 위해 사용된 V-JEPA2는 자기지도학습(Self-supervised learning)을 통해 비디오의 시공간적 특징을 추출하며, 특히 물체의 영속성이나 충돌 같은 직관적 물리 개념을 잘 포착하는 것으로 알려져 있습니다.
모델은 Flow Matching 목적 함수를 사용하여 학습됩니다. 구체적으로는 시각적 속도 필드 u_v와 물리적 속도 필드 u_z를 동시에 예측하도록 설계되었습니다. 학습 과정에서 물리 브랜치는 처음부터 학습(Scratch)되지만, 시각 브랜치는 고정된 상태에서 Cross-Attention을 통해 물리적 가이드를 수용하는 법만 배웁니다. 이는 모델이 물리적 일관성을 확보하면서도 기존의 고화질 영상 생성 능력을 잃지 않게 하는 핵심적인 학습 전략입니다.
또한 Phantom은 다중 프레임 조건부 생성(Multi-frame conditioning)을 지원하도록 확장되었습니다. 학습 시 1개에서 45개 사이의 가변적인 프레임을 조건으로 입력하여 모델이 과거의 움직임 맥락을 파악하고 미래의 물리적 변화를 더 정확히 예측할 수 있도록 훈련되었습니다.
한계점
Phantom은 VBench-2의 창의성(Creativity) 점수 중 다양성(Diversity) 지표에서 베이스 모델 대비 하락(64.67 → 45.95)을 보였습니다. 이는 물리적 제약 조건이 강화되면서 생성 가능한 영상의 범위가 물리적으로 타당한 범위 내로 좁혀졌기 때문으로 분석됩니다. 또한 물리적 일관성은 크게 개선되었으나, 여전히 복잡한 유체 역학이나 미세한 질감 변화에서는 완벽한 현실 재현에 한계가 있을 수 있습니다.
실무 활용
Phantom은 물리적 정확도가 중요한 전문 영상 제작 및 시뮬레이션 분야에서 즉시 활용 가능한 기술입니다. 외부 시뮬레이터 연결 없이 모델 내부적으로 물리 법칙을 계산하므로 추론 속도가 빠르고 구현이 간편합니다.
- 로봇 학습을 위한 물리적으로 정확한 가상 환경 데이터셋 생성
- 특수 효과(VFX) 제작 시 중력 및 충돌이 반영된 기초 영상 가이드 생성
- 물리 법칙 교육용 인터랙티브 시뮬레이션 콘텐츠 제작
- 정적인 이미지에 자연스러운 물리적 움직임(액체 쏟기, 공 튀기기 등)을 부여하는 애니메이션 도구
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

Phantom이 단순한 영상 생성을 넘어 외부에서 가해지는 물리적 자극(Force Control)을 이해하고 그에 맞는 역동적인 움직임을 생성할 수 있음을 증명하는 실험 결과입니다.
사용자가 입력한 힘(Force)의 방향과 크기에 따라 물체가 움직이는 비디오 생성 사례를 보여줍니다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.