RealWonder: 실시간 물리 동작 조건부 비디오 생성

왜 중요한가

기존 비디오 생성 모델은 3D 물리적 힘이 물체에 미치는 영향을 정확히 이해하지 못해 부자연스러운 움직임을 만드는 한계가 있었다. RealWonder는 물리 시뮬레이션을 중간 매개체로 도입하여 로봇 조작이나 외부 압력에 반응하는 고화질 영상을 실시간으로 생성함으로써 AR/VR 및 로봇 학습 분야에 혁신적인 도구를 제공한다.

핵심 기여

물리 시뮬레이션을 활용한 중간 표현 브리지 도입

연속적이고 무한한 3D 물리 동작을 직접 인코딩하는 대신, 물리 시뮬레이터를 통해 광학 흐름(Optical Flow)과 거친 RGB 미리보기로 변환하여 비디오 모델이 이해하기 쉬운 시각적 제어 신호를 제공함.

실시간 스트리밍 비디오 생성 시스템 구축

4단계 확산(Diffusion) 과정을 거치는 증류된 모델을 통해 단일 H200 GPU에서 480x832 해상도로 초당 13.2프레임(FPS)의 생성 속도를 달성함.

다양한 재질 및 물리 현상 시뮬레이션

강체, 탄성체, 천, 유체, 입자성 물질 등 다양한 재질에 대해 3D 점 힘(Point Force), 중력장, 바람, 로봇 그리퍼 동작 등 복합적인 물리적 상호작용을 사실적으로 구현함.

핵심 아이디어 이해하기

비디오 생성 모델은 픽셀의 통계적 패턴은 잘 학습하지만, 특정 지점에 가해진 '힘'이 3D 공간에서 어떻게 전파되는지에 대한 물리적 임베딩(Embedding) 능력이 부족하다. 특히 힘이나 토크는 연속적인 값이라 텍스트처럼 이산화하여 입력하기 어렵다는 근본적인 문제가 존재한다.

RealWonder는 물리 시뮬레이터를 '번역기'로 사용하여 이 문제를 해결한다. 사용자가 입력한 3D 물리 동작을 시뮬레이터에 입력하면, 시뮬레이터는 물리 법칙에 따라 물체의 움직임을 계산하고 이를 광학 흐름(Optical Flow)과 대략적인 이미지로 렌더링한다. 비디오 모델은 이 시각화된 가이드라인을 따라 실제 같은 고해상도 영상을 그려내는 역할만 수행한다.

이 방식은 물리적 인과관계를 보존하면서도 비디오 모델이 익숙한 픽셀 도메인에서 제어 신호를 받게 한다. 결과적으로 물리 법칙을 엄격히 따르면서도 딥러닝 모델 특유의 시각적 사실성을 동시에 확보하며, 복잡한 물리-비디오 쌍 데이터 없이도 학습이 가능한 확장성을 제공한다.

방법론

시스템은 3단계 파이프라인으로 구성된다. 먼저 입력된 단일 이미지에서 SAM 2와 MoGE-2를 사용해 객체를 분할하고 3D 점구름(Point Cloud)으로 재구성한다. VLM(Vision Language Model)을 통해 각 객체의 재질을 분류하고 밀도, 마찰 계수 등의 물리 파라미터를 추정한다.

물리 시뮬레이션 단계에서는 Genesis 시뮬레이터를 활용한다. 입력된 3D 동작 $a_t$ 와 현재 상태 $S_t$ 를 바탕으로 다음 시점의 위치 $p_{t+1}$ 와 속도 $v_{t+1}$ 를 계산한다. [현재 3D 위치 $p_t$ 와 속도 $v_t$ 를 입력으로] → [시간 변화량 $\Delta t$ 를 곱해 다음 위치를 구하고 카메라 투영 함수 $\Pi$ 를 통해 2D 픽셀 좌표로 변환하는 연산을 수행해] → [두 좌표 간의 차이인 2D 벡터를 얻고] → [이 값은 화면상에서 물체가 어느 방향으로 움직여야 하는지를 나타내는 광학 흐름 $F_t$ 가 된다.]

비디오 생성부에서는 Wan2.1 기반 모델에 LoRA를 적용하여 광학 흐름에 적응시킨 후, DMD(Distribution Matching Distillation) 기법으로 4단계 추론이 가능한 모델로 증류한다. 추론 시에는 SDEdit을 사용하여 거친 RGB 미리보기와 노이즈를 혼합함으로써 시각적 세부 사항과 물리적 움직임의 일관성을 동시에 확보한다.

주요 결과

RealWonder는 H200 GPU 기준 13.2 FPS의 속도와 0.73초의 지연 시간을 기록하여 실시간 스트리밍 생성을 구현했다. 이는 기존 물리 기반 모델인 PhysGaussian(0.207 FPS)이나 제어형 모델인 Tora(0.107 FPS) 대비 압도적인 속도 향상이다.

VBench를 활용한 정량 평가에서 시각적 품질(0.708), 물리적 사실성(PhysReal, 0.705) 등 주요 지표에서 최상위권을 기록했다. 특히 400명을 대상으로 한 사용자 평가(2AFC)에서 동작 추종 능력과 물리적 타당성 부문에서 80% 이상의 선호도를 얻으며 기존 모델들을 능가했다.

절제 연구 결과, 광학 흐름 조건만 사용했을 때보다 거친 RGB 미리보기를 함께 사용했을 때 객체의 가려짐(Occlusion) 처리와 구조적 보존 성능이 크게 향상됨이 확인됐다. 이는 단순한 이동 경로뿐만 아니라 물체의 형태 변화를 포착하는 데 RGB 미리보기가 중요한 역할을 함을 시사한다.

실무 활용

실시간으로 사용자의 물리적 입력에 반응하는 영상을 생성할 수 있어 인터랙티브 콘텐츠 제작 및 로봇 공학 시뮬레이션에 즉시 활용 가능하다.

로봇 팔 조작 시뮬레이션 및 학습용 합성 데이터 생성
AR/VR 환경에서 가상 물체와의 실시간 물리 상호작용 구현
게임 개발 시 캐릭터 및 사물의 물리 반응 실시간 미리보기
비디오 편집 도구에서 물체에 가상의 힘을 가해 움직임을 수정하는 기능

기술 상세

전체 아키텍처는 3D 재구성, 물리 엔진, 조건부 비디오 확산 모델의 결합체이다. 3D 재구성은 SAM 2로 마스크를 생성하고 MoGE-2로 깊이를 추정한 뒤, SAM3D로 메쉬를 생성하여 시뮬레이션 가능한 상태로 변환한다.

물리 엔진은 재질에 따라 최적화된 솔버를 사용한다. 강체는 Collision Handling, 탄성체와 천은 PBD(Position-Based Dynamics), 유체와 입자는 MPM(Material Point Method)을 적용하여 복합 재질 간 상호작용을 처리한다. 각 물리 단계는 2ms 이내에 완료되어 실시간성을 보장한다.

비디오 모델 가속화를 위해 DMD(Distribution Matching Distillation)를 채택했다. 다단계 추론을 수행하는 교사 모델의 출력 분포와 4단계만 수행하는 학생 모델의 분포 간 역 KL 발산(Reverse KL Divergence)을 최소화하여 품질 저하 없이 속도를 높였다.

스트리밍의 안정성을 위해 Self-Forcing 학습 패러다임을 도입했으며, 긴 시퀀스 생성 시 발생하는 품질 저하를 막기 위해 RoPE 적용 전 KV 캐시를 저장하고 Attention Sink를 추가하는 기법을 사용하여 시간적 일관성을 유지한다.

한계점

단일 이미지 기반의 3D 재구성 과정에서 발생하는 깊이 추정 오류가 물리 시뮬레이션의 정확도를 떨어뜨릴 수 있다. 또한 VLM을 통한 재질 분류가 완벽하지 않을 경우 실제와 다른 물리 반응이 나타날 가능성이 존재한다.

키워드

비디오 생성(Video Generation)물리 시뮬레이션(Physics Simulation)실시간 시스템(Real-time System)확산 모델(Diffusion Model)3D 재구성(3D Reconstruction)