TL;DR
현실적인 인간 모션 생성을 위한 보상 신호가 2D 픽셀 공간에 국한되어 있어 해부학적 타당성, 접촉 역학, 동적 가능성 등 물리적 제약을 반영하지 못한다. PhyMotion은 generated video에서 3D SMPL-X를 회복하고 MuJoCo 물리 시뮬레이션에 재현해 세 가지 축(kine matic plausibility, contact/balance, dynamic feasibility)으로 모션 품질을 정량화한다. 이로써 기존 2D 기반 보상보다 모션의 물리적 타당성에 더 직접적으로 연결된 신호를 제공하고, RL 포스트 트레이닝에서 모션 현실감을 크게 개선한다.
왜 중요한가
현실적인 인간 모션 생성을 위한 보상 신호가 2D 픽셀 공간에 국한되어 있어 해부학적 타당성, 접촉 역학, 동적 가능성 등 물리적 제약을 반영하지 못한다. PhyMotion은 generated video에서 3D SMPL-X를 회복하고 MuJoCo 물리 시뮬레이션에 재현해 세 가지 축(kine matic plausibility, contact/balance, dynamic feasibility)으로 모션 품질을 정량화한다. 이로써 기존 2D 기반 보상보다 모션의 물리적 타당성에 더 직접적으로 연결된 신호를 제공하고, RL 포스트 트레이닝에서 모션 현실감을 크게 개선한다.
핵심 기여
Physics-grounded 3D motion reward
SMPL-X 재구성된 3D 모션을 MuJoCo로 재현하고, 관절 각속도, 체간 충돌, 관절 한계 등의 지표를 조합해 세 축(Fkin, Fcon, Fdyn)을 산출하는 연속적 보상 체계를 제시한다.
Dense, interpretable evaluation aligned with human judgments
인간 판단과의 일치도를 높이는 3D 모션 피드백을 제공하며, 1,200쌍의 비교 연구에서 평균 80%의 일치와 ρ=0.376의 상관도를 달성한다.
RL post-training with structured 3D reward
DiffusionNFT 계열의 포스트 트레이닝 프레임워크에서 세 축의 합성 보상(Rmotion = (Fkin+Fcon+Fdyn)/3)을 사용해 autoregressive/bidirectional 비디오 생성기에서 모션 품질 및 물리적 일관성을 함께 향상시킨다.
Empirical evidence of complementary axes and modest overhead
각 축의 기여가 상호 보완적임을 Ablation으로 확인하고, 전체 보상이 가장 높은 성능을 냄을 보이며, standalone reward 계산 시간은 2.80초/video, 실질 학습 오버헤드는 약 7%로 파이프라인에 충분히 수용 가능한 수준이다.
핵심 아이디어 이해하기
단계 요약 1) 이미지 기반 2D 보상은 3D 해부학적 제약을 간과하는 경우가 많아 물리적으로 불합리한 모션도 높은 점수를 받을 수 있다. 2) PhyMotion은 생성된 비디오에서 SMPL-X를 회복하고 MuJoCo에 이식하여 3D 모션을 얻는다. 3) 이 3D 모션으로 kinematic feasibility(Fkin: 관절 각속도/자체 충돌/관절 한계), contact feasibility(Fcon: 발 접촉/그라운드 상호작용/균형), dynamic feasibility(Fdyn: 관절 토크/GRF/노력)의 세 축 점수를 계산한다. 4) 각 축은 0~1 사이의 연속 신호로 해석 가능하며, 이를 평균낸 Rmotion으로 RL 보상을 구성해 모션의 물리적 타당성을 직접적으로 최적화한다. 5) 이 접근법은 2D perceptual 보상 대비 모션의 구조적 타당성에 대해 더 강하게 인간 판단과 정렬되며, RL 포스트 트레이닝에서 Autoregressive 및 Bidirectional 비디오 생성기 모두에서 일관된 개선을 낳는다.
방법론
단계 1: 비디오에서 3D 모션 추정
- GVHMR로 SMPL-X 포즈 q_t와 관절 Xt를 추정하고, 프레임 간 속도 v_t를 계산한다.
- SMPL-X 트랙션을 MuJoCo의 인간 모델로 재타겟하고 역역학을 수행해 토크 τ_t과 Ground Reaction Force F_GRF_t를 얻는다.
단계 2: 물리적 피드백의 세 축 계산
- Kinematic feasibility: 각 관절의 각속도 벨로시티 한계 vvel, 자가 교차(vspen), 관절 한계(vlim)을 정규화하고 Fkin = 1 - (vvel+vspen+vlim)/3으로 계산한다.
- Contact feasibility: 발의 접촉 여부(ct,k)에서 발 미끄럼 vslip, 땅 침투 vgpen, 발 부상 vfloat, 균형 vbal을 계산하고 Fcon = 1 - (vslip+vgpen+vfloat+vbal)/4로 정규화한다.
- Dynamic feasibility: 역학적 요구 토크, GRF, 메커니컬 워크를 이용해 sτ, sGRF, smet를 산출하고 Fdyn = (sτ+sGRF+smet)/3로 정규화한다.
단계 3: 모션 보상과 정책 학습
- Rmotion(v) = (Fkin(v) + Fcon(v) + Fdyn(v)) / 3으로 세 축의 평균 보상을 얻는다.
- 정책 최적화: 목표는 R(v)를 최대화하고 기준 정책 πref에 KL 제약을 추가하는 형태로 구성하며, DiffusionNFT 계열의 forward-process RL 프레임워크를 사용한다. v_t에 대해 v+와 v-를 정의하고 Lpolicy를 최소화하는 방식으로 학습한다.
단계 4: 학습 데이터와 평가
- Motion-X 기반 프로ンプ트를 사용한 Motion-X 데이터셋으로 21,348 프롬프트를 구성하고 8× A100에서 LoRA를 사용한 RL 포스트 트레이닝으로 330 스텝을 수행한다.
- 평가 지표로 인간 판단 일치도, Spearman ρ, VBench/VBench-2.0, VideoAlign, VideoPhy 등 외부 벤치마크를 사용한다.
관련 Figure

세 축의 피드백(Fkin, Fcon, Fdyn)과 3D 모션 추론/물리 시뮬레이션 흐름을 한 눈에 보여주며 방법론 구성을 직관적으로 제시한다.
PhyMotion의 전체 아키텍처와 RL 후훈련 파이프라인을 요약하는 인포그래픽

(1) 3D Human Reconstruction, (2) Physics Simulator, (3) Decomposed Motion Scores를 시각화하여 피드백의 구체적 구성과 차원을 강조한다.
SMPL-X 재구성, 물리 시뮬레이션, 3D 보상 구성의 세부 구성요소를 보여주는 도식
주요 결과
주요 벤치마크 결과
- 인간 판단 일치도: PhyMotion은 80% 평균 일치 및 종합 Spearman ρ=0.376으로 기존의 VBench/VBench-2.0, VideoAlign, VideoPhy를 상회한다. 관절학적 타당성(Kinematic)이 body structure 판단에서 가장 높은 일치를 보였고, 접촉 타당성(Contact)과 동적 타당성(Dynamic)도 균등하게 높은 성과를 보였다.
- RL 포스트 트레이닝: PhyMotion은 자동 벤치마크에서 외부 메트릭을 개선시키며, VideoAlign MQ의 경우 +25.2%, VideoPhy PC의 경우 +5.7%의 향상을 달성했다. 더 큰 5B/14B 모델과도 대체로 경쟁하거나 우수한 성능을 보였다.
- Elo 인간 선호 평가: Body Structure 1620 ±34, Balance 1610 ±34, Motion 1632 ±39, Overall 1621 ±11으로 기록되었고, Wan2.2 14B의 각 차원 대비 상회하는 결과를 보였다.
- Ablation: 유의하게, 세 축을 모두 사용한 경우가 단일 축보다 전반적으로 더 나은 전체 Feasibility를 달성했다(표 4). 단일 축으로의 최적화는 특정 차원 향상에 그치고 전체 성능이 감소하는 경향이 있다.
관련 Figure

텍스트 프롬프트에 따른 kinematic/contact/dynamic 차이를 시각적으로 비교하여 세 축의 역할과 차이를 설명한다.
텍스트 프롬프트별로 SMPL 메시와 보상 축의 차이를 보여주는 예시

Kin/Con/Dyn 보상과 외부 벤치마크 지표 간의 비교를 통해 PhyMotion의 개선점을 보여준다.
다양한 프롬프트에 대한 정량적 보상과 외부 벤치마크 비교 시각화

세 축 보상이 개별 사례에서 서로 다르게 작동하는지 보여주며, 보상의 상호 보완성을 강조한다.
프롬프트별 다중 예시에서 Kin/Con/Dyn의 피드백 차이를 강조하는 예시

각 모션 사례에서 제시된 Failure mode들을 시각화하고, Ours의 더 안정적 물리 구성을 강조한다.
다양한 프롬프트에서의 Qualitative 비교 이미지

Wan 1.3B, Wan2.2 14B, Ours 1.3B 등의 다차원 벤치마크 비교를 한 눈에 보여준다.
일반 벤치마크의 타당성 Radar 차트(Per-category)

모델 간 다차원 비교를 통해 일반 벤치마크에서의 상대적 강점을 시각화한다.
다른 Radar 차트로 모델 간 비교를 보강
기술 상세
아키텍처 구성: 비디오 → GVHMR로 SMPL-X 트랙션 회복 → MuJoCo 인간 모델로 재타깃 → 역역학으로 τt, FGRF_t 추정 → Fkin, Fcon, Fdyn 산출 → Rmotion = (Fkin+Fcon+Fdyn)/3. 보상 구성의 수식적 기초는 각 축의 정규화된 실패도(vvel, vspen, vlim, vslip, vgpen, vfloat, vbal, vvert_grf, vhoriz_grf, vtorque, smet 등)에 기반한다. 정책 최적화는 KL 제약 하에 πθ를 업데이트하며, v+와 v− 사이의 보조 정책 차이를 최소화하는 trajecotry-free Lpolicy를 사용한다. 실험 설계는 Motion-X 기반 프롬프트에서의 1,200 쌍의 비교 실험, 두 가지 backbones(FastWan-1.3B, Causal Forcing-1.3B)에서의 RL 포스트 트레이닝, 및 외부 벤치마크에 대한 일반화 평가를 포함한다.
실무 활용
PhyMotion은 3D 물리 피드백 기반 보상을 통해 RL 포스트 트레이닝 방식으로 인간 모션 비디오의 물리적 타당성과 시각 품질을 동시에 향상시키는 일반화 가능한 프레임워크이다.
- 사전 학습된 확산 기반 비디오 생성기의 포스트 트레이닝을 통해 물리적으로 타당한 인간 모션을 강화
- 모션 실패 원인(kinematic/contact/dynamic) 분석 및 디버깅 도구로 활용
- MuJoCo를 이용한 물리 기반 피드백 루프를 포함하는 인간 중심 시뮬레이션 기반 콘텐츠 생성
- 다양한 프롬프트에서의 일반화 성능 유지와 물리적 신뢰도 향상을 위한 디버깅 및 평가 파이프라인 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.