핵심 요약
기존 비디오 생성 모델은 시각적으로는 화려하지만 물체가 공중에 떠 있거나 충돌 후 반동이 없는 등 물리 법칙을 위반하는 경우가 많았다. PhyCo는 시뮬레이터 없이도 마찰력, 탄성, 변형 등 구체적인 물리 속성을 직접 조절하여 실제 세계와 일치하는 움직임을 생성할 수 있게 한다.
왜 중요한가
기존 비디오 생성 모델은 시각적으로는 화려하지만 물체가 공중에 떠 있거나 충돌 후 반동이 없는 등 물리 법칙을 위반하는 경우가 많았다. PhyCo는 시뮬레이터 없이도 마찰력, 탄성, 변형 등 구체적인 물리 속성을 직접 조절하여 실제 세계와 일치하는 움직임을 생성할 수 있게 한다.
핵심 기여
대규모 물리 기반 데이터셋 구축
마찰력, 탄성, 변형, 외력이 체계적으로 변화하는 10만 개 이상의 사실적인 시뮬레이션 비디오 데이터셋을 구축하여 물리적 사전 지식 학습의 기초를 마련했다.
물리 속성 맵 기반의 ControlNet 파인튜닝
픽셀 단위로 정렬된 물리 속성 맵을 입력으로 받는 ControlNet 구조를 통해 사전 학습된 확산 모델이 연속적이고 해석 가능한 물리 제어를 수행하도록 학습시켰다.
VLM 가이드 보상 최적화
시각-언어 모델(VLM)이 생성된 비디오의 물리적 타당성을 평가하고 미분 가능한 피드백을 제공하는 2단계 정렬 프로세스를 도입하여 물리적 일관성을 강화했다.
관련 Figure

슬라이딩, 바운싱, 충돌, 변형 등 8가지 시나리오에서 10만 개 이상의 비디오가 생성되었음을 보여준다. 다양한 물리적 환경이 모델의 일반화 성능에 기여함을 입증한다.
PhyCo 데이터셋의 다양한 물리 시뮬레이션 시나리오 예시
핵심 아이디어 이해하기
기존의 비디오 확산 모델은 이미지 간의 시각적 연속성을 학습하는 데 집중하지만, 물체가 왜 그렇게 움직여야 하는지에 대한 물리적 근거는 부족하다. 이는 모델이 픽셀의 통계적 분포만 학습할 뿐, 질량이나 마찰 같은 잠재적인 물리 변수를 이해하지 못하기 때문이다.
PhyCo는 이를 해결하기 위해 물리 시뮬레이터의 파라미터를 딥러닝의 Embedding 공간으로 가져온다. 먼저 물체의 위치와 해당 지점의 물리적 특성(마찰 계수, 탄성 등)을 공간적으로 정렬된 맵 형태로 구성하여 모델에 주입한다. 이는 Transformer가 텍스트의 위치 정보를 이해하기 위해 Positional Encoding을 사용하는 것과 유사하게, 비디오 생성 과정에서 각 픽셀이 어떤 물리적 제약을 받아야 하는지 가이드를 제공한다.
결과적으로 모델은 단순히 다음 프레임을 예측하는 것을 넘어, 입력된 물리 값에 따라 궤적과 속도를 계산하는 법을 배운다. 예를 들어 탄성 수치를 높이면 충돌 후 튀어 오르는 높이가 자동으로 조절되며, 이는 추론 시 별도의 물리 엔진 계산 없이도 신경망 내부의 연산만으로 자연스럽게 구현된다.
방법론
전체 프레임워크는 사전 학습된 Cosmos-Predict2-2B 모델을 기반으로 하며, 두 단계의 학습 과정을 거친다. 첫 번째 단계는 Physics-Supervised Fine-tuning으로, 물리 속성 맵 p를 입력받는 ControlNet을 학습시킨다. p는 마찰(μ), 탄성(e), 변형 파라미터, 외력의 크기와 방향을 포함하며, 이를 Cosmos 토크나이저를 통해 토큰화하여 DiT 백본에 주입한다.
두 번째 단계는 VLM-Guided Reward Optimization이다. 생성된 비디오 x_hat을 VLM(Qwen2.5-VL-3B)에 입력하고 "물체가 의도한 방향으로 움직이는가?"와 같은 물리 쿼리를 던진다. VLM이 출력하는 정답 토큰의 Logit 값을 활용하여 보상을 계산하며, 이를 통해 모델이 물리적 의도에 더 정확히 부합하도록 정렬한다.
수학적으로 VLM 손실 함수는 LVLM = -Σ log σ(ζ+ - ζ-)로 정의된다. 여기서 ζ+는 정답 답변에 대한 Logit, ζ-는 오답 답변에 대한 Logit이다. [VLM의 로짓 차이를 입력으로] → [시그모이드 함수와 로그 연산을 수행해] → [확률 기반의 손실 값을 얻고] → [이 값이 작아지는 방향으로 가중치를 업데이트하여 물리적 일관성을 높인다].
관련 Figure

Stage 1에서 물리 속성 맵을 통한 ControlNet 학습과 Stage 2에서 VLM을 이용한 보상 최적화 과정을 보여준다. 이 구조가 어떻게 시각적 정보와 물리적 제약 조건을 결합하는지 명확히 설명한다.
PhyCo의 2단계 학습 파이프라인 개요도
주요 결과
Physics-IQ 벤치마크 평가 결과, PhyCo는 고체 역학, 유체 역학 등 5개 도메인 전체에서 기존 SOTA 모델들을 압도했다. 특히 종합 IQ Score에서 43.6점을 기록하여, 강력한 베이스라인인 VLIPP(34.6점)나 Cosmos-Predict2-2B(27.7점)보다 월등히 높은 물리적 이해도를 보였다.
사용자 선호도 조사(2AFC)에서도 마찰력 제어 90.9%, 탄성 제어 67.4%, 변형 제어 56.8% 등 모든 항목에서 베이스라인 모델보다 PhyCo가 생성한 영상이 더 현실적이라는 평가를 받았다. 또한 학습 데이터에 없던 실제 세계 영상이나 스타일화된 장면에서도 물리적 속성 제어가 유효하게 작동하는 일반화 성능을 입증했다.
기술 상세
PhyCo의 핵심은 물리적 속성을 공간적으로 정렬된 원형 블롭(circular blobs)으로 표현하여 ControlNet에 전달하는 방식이다. 각 속성은 [-1, 1] 범위로 정규화되며, 마찰/탄성, 변형, 외력의 세 그룹으로 나뉘어 개별적인 ControlNet 브랜치에서 처리된다. 이는 각 물리 속성의 독립성과 조합성을 보장한다.
학습 시에는 57프레임의 시퀀스를 24FPS로 감독하며, VLM 보상 학습 시에는 메모리 효율을 위해 10단계의 디노이징 롤아웃(rollout)을 수행한 후 역전파를 진행한다. Qwen2.5-VL-3B는 LoRA를 통해 물리 쿼리에 최적화되도록 사전 튜닝되어 약 85%의 답변 정확도를 확보한 상태에서 보상 신호를 제공한다.
한계점
현재 모델은 단순화된 강체 및 연성체 거동은 잘 포착하지만, 다관절 운동, 유체-구조 상호작용 또는 다중 객체 간의 복잡한 충돌 역학은 여전히 부분적으로만 모델링된다. 또한 공간 속성 맵이 물리적 가이드를 제공하지만, 운동량 보존 법칙과 같은 엄격한 물리 보존 법칙을 강제하지는 못해 미세한 물리적 오류가 발생할 수 있다.
실무 활용
시뮬레이터 없이도 정밀한 물리 제어가 필요한 영상 제작 및 교육용 콘텐츠 생성에 즉시 활용 가능하다.
- 게임 개발 시 물리 엔진 연산 비용을 대체하는 사실적 배경 애니메이션 생성
- 물리 법칙 교육을 위한 인터랙티브 시뮬레이션 영상 제작
- 제품 디자인 단계에서 재질 변화에 따른 동적 반응 시각화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.