핵심 요약
기존의 물리 기반 캐릭터 제어는 고비용의 3D 모션 캡처 데이터에 의존했으나, 이 논문은 비디오 생성 모델의 풍부한 2D 데이터를 활용해 정교한 손동작을 학습하는 새로운 방향을 제시합니다. 텍스트 입력만으로 처음 보는 물체와 상호작용하는 물리적으로 타당한 동작을 생성할 수 있어 로봇 공학 및 가상 캐릭터 제어의 확장성을 크게 높였습니다.
왜 중요한가
기존의 물리 기반 캐릭터 제어는 고비용의 3D 모션 캡처 데이터에 의존했으나, 이 논문은 비디오 생성 모델의 풍부한 2D 데이터를 활용해 정교한 손동작을 학습하는 새로운 방향을 제시합니다. 텍스트 입력만으로 처음 보는 물체와 상호작용하는 물리적으로 타당한 동작을 생성할 수 있어 로봇 공학 및 가상 캐릭터 제어의 확장성을 크게 높였습니다.
핵심 기여
DeVI 프레임워크 제안
텍스트 조건부 합성 비디오를 활용하여 물리 시뮬레이션 내에서 정교한 인간-물체 상호작용(HOI)을 수행하는 캐릭터 제어 정책을 학습하는 프레임워크를 구축했다.
하이브리드 모방 타겟 도입
3D로 복원이 용이한 인간 모션은 3D로, 정확한 3D 복원이 어려운 물체 궤적은 2D로 유지하여 결합한 하이브리드 타겟 방식을 통해 학습의 안정성과 정확도를 확보했다.
시각적 HOI 정렬 최적화
독립적인 인간 및 손 추정기의 결과를 통합하고, 비디오상의 2D 투영 오차와 물체와의 접촉 거리를 최소화하는 최적화 과정을 통해 물리적으로 타당한 참조 동작을 생성했다.
제로샷 일반화 성능 입증
사전 캡처된 3D 데이터 없이도 20가지 이상의 다양한 물체와 다중 물체 시나리오에서 성공적인 상호작용 모션을 생성하며 기존 3D 모방 기반 방식보다 우수한 성능을 보였다.
핵심 아이디어 이해하기
기존의 물리 기반 캐릭터 제어는 정답지 역할을 하는 3D 모션 데이터가 필수적이었으나, 현실적으로 모든 물체와 동작에 대한 3D 데이터를 구하기는 불가능에 가깝다. 반면 최근의 Video Diffusion Model은 수많은 2D 영상을 통해 인간이 물체를 어떻게 다루는지에 대한 방대한 지식을 학습하고 있다. DeVI는 이 생성 모델을 '동작 계획기(Motion Planner)'로 활용하여, 텍스트 프롬프트로부터 타겟 동작 비디오를 먼저 생성하고 이를 물리 엔진 속 캐릭터가 따라 하도록 유도한다.
여기서 핵심 문제는 2D 비디오에는 깊이 정보가 없어 3D 물리 공간으로 완벽히 옮기기 어렵다는 점이다. DeVI는 인간의 몸체는 기존 3D 복원 기술로 변환하되, 복원이 까다로운 물체는 비디오상의 2D 위치를 그대로 추적하는 '하이브리드' 방식을 택했다. 이는 마치 사람이 거울에 비친 자신의 모습(2D)을 보며 자세를 교정하듯, 시뮬레이션 속 캐릭터가 가상의 카메라 뷰를 통해 자신의 동작이 비디오 속 물체 궤적과 일치하는지 확인하며 학습하게 만든다.
결과적으로 캐릭터는 복잡한 수식이나 정교한 3D 가이드 없이도 비디오에 나타난 시각적 단서만을 따라가며, 물체를 집어 들거나 조작하는 데 필요한 물리적 힘과 균형 감각을 스스로 터득하게 된다.
관련 Figure

(a)에서는 기존 6D 포즈 추정 방식의 노이즈 문제를, (b)에서는 본 논문이 제안한 정렬 기법을 통해 손과 물체의 접촉이 얼마나 더 정확해지는지 비교하여 보여준다.
6D 포즈 추정의 한계와 Visual HOI Alignment의 효과 비교
방법론
DeVI의 전체 파이프라인은 2D 비디오 생성, 하이브리드 타겟 추출, 강화학습 기반 제어 정책 학습의 세 단계로 구성된다. 먼저 입력된 3D 장면을 렌더링한 초기 이미지를 바탕으로 Video Diffusion Model(Wan)을 사용하여 텍스트 프롬프트에 부합하는 HOI 비디오를 생성한다.
하이브리드 타겟 추출 단계에서는 GVHMR과 HaMeR를 결합하여 인간의 3D SMPL-X 메시를 복원한다. 이때 비디오와 3D 장면 간의 불일치를 해결하기 위해 Visual HOI Alignment 최적화를 수행한다. L_total = w_bL_b + w_hL_h + w_tcL_tc + w_HOIL_HOI 수식을 사용하며, 이는 [3D 관절의 2D 투영값과 비디오 내 관절 위치의 차이를 입력으로] → [L2 노름 및 Chamfer Distance 연산을 수행해] → [오차 숫자를 얻고] → [이 값을 최소화하여 3D 모델이 비디오 영상 및 물체 위치에 딱 맞게 정렬되도록] 조정하는 과정이다.
마지막으로 PPO(Proximal Policy Optimization) 알고리즘을 사용하여 제어 정책을 학습한다. 보상 함수 R = R_h * R_o * R_contact는 [인간의 3D 자세 차이, 물체의 2D 투영 궤적 차이, 접촉 여부를 입력으로] → [지수 함수 형태의 보상을 곱산하여] → [최종 스칼라 보상값을 산출하며] → [캐릭터가 비디오의 움직임을 물리적으로 재현하도록] 가중치를 갱신한다. 특히 물체 추적 보상 R_o는 6D 포즈 대신 2D 투영 오차를 사용하여 복잡한 보상 설계 없이도 자연스러운 조작을 유도한다.
관련 Figure

입력 장면에서 비디오를 생성하고, 하이브리드 모방 타겟을 추출하여 물리 시뮬레이터 내의 제어 정책을 학습하는 전체 과정을 보여준다. 특히 2D 비디오 궤적과 3D 인간 모션이 어떻게 하이브리드 보상으로 연결되는지 시각화한다.
DeVI 프레임워크의 전체 오버뷰 다이어그램
주요 결과
GRAB 데이터셋을 이용한 정량적 평가에서 DeVI는 기존의 3D 모방 기반 SOTA 모델들(PhysHOI, SkillMimic, InterMimic)을 모든 지표에서 압도했다. 특히 손 관절 오차(MPJPE Hand)에서 기존 방식들이 100mm 이상의 오차를 보인 반면, DeVI는 약 2243mm 수준으로 정밀도를 크게 개선했다. 물체 평행 이동 오차(T_obj) 역시 기존 대비 약 34배 낮은 수치를 기록하며 정확한 조작 능력을 증명했다.
Ablation Study 결과, 제안된 Visual HOI Alignment가 없을 경우 접촉 거리(d_HOI)가 101mm까지 벌어지지만, 적용 시 18.7mm로 급격히 줄어들어 정교한 상호작용에 필수적임이 확인됐다. 또한 6D 포즈 보상 대신 2D 투영 보상을 사용하는 것이 노이즈가 섞인 합성 비디오 환경에서 정책 학습의 수렴 속도와 성공률을 높이는 데 더 효과적임을 입증했다.
관련 Figure

트로피, 카메라, 콜라병 등 텍스트 프롬프트에 따라 생성된 비디오를 바탕으로 물리 시뮬레이션에서 구현된 다양한 상호작용 동작들을 나열하여 범용성을 입증한다.
다양한 물체에 대한 DeVI의 정성적 결과 모음

PhysHOI, SkillMimic 등 기존 방식들과 비교했을 때 DeVI가 물체를 잡는 손가락의 정밀도와 동작의 자연스러움 측면에서 우위에 있음을 확대 샷을 통해 보여준다.
기존 SOTA 모델들과의 정성적 비교
기술 상세
DeVI는 SMPL-X 모델을 기반으로 21개의 몸체 관절과 30개의 손 관절을 제어한다. 아키텍처는 Transformer 기반의 Actor 네트워크와 MLP 기반의 Critic 네트워크로 구성된 Actor-Critic 구조를 채택했다. 입력 상태 st는 인간의 관절 상태, 물체의 상태, 그리고 미래의 타겟 포즈를 포함한다.
핵심 차별점은 6D 물체 포즈 추정의 불확실성을 회피하기 위해 2D 포인트 트래킹(CoTracker3)을 활용한다는 점이다. 물체 표면의 1024개 정점을 샘플링하고 이를 비디오 프레임에 투영한 궤적을 참조 신호로 사용한다. 또한, 비디오에서 손과 물체의 속도 변화를 분석하여 자동으로 접촉 라벨(Contact Label)을 추정하는 알고리즘을 도입해 물리 시뮬레이션의 접촉 보상을 정교화했다.
학습은 Isaac Gym 환경에서 4096개의 병렬 환경을 사용하여 수행되었으며, NVIDIA A6000 GPU 기준 250프레임 비디오 하나를 모방하는 데 약 20시간이 소요된다. 초기화 전략으로 접촉 직전 프레임에서 시작할 확률을 50%로 설정하여 학습 효율을 높였다.
한계점
비디오 생성 모델의 원근 왜곡(Perspective Artifacts)으로 인해 카메라 방향으로 움직이는 손의 크기가 비정상적으로 변하는 경우 깊이 방향의 오차가 발생할 수 있다. 또한, 현재의 자동 접촉 추정 방식은 픽셀 속도에만 의존하므로 깊이 방향의 움직임이 포함된 정밀한 접촉 타이밍을 놓칠 가능성이 있으며, 이는 물체를 빠르게 낚아채는 등의 부자연스러운 동작으로 이어질 수 있다.
실무 활용
비디오 생성 모델을 로봇의 동작 가이드로 활용할 수 있음을 보여주며, 데이터가 부족한 복잡한 조작 작업의 자동화 가능성을 제시합니다.
- 텍스트 지시만으로 로봇이 새로운 물체를 집거나 조작하는 동작 학습
- 가상 현실(VR) 및 게임 내 캐릭터의 자연스러운 물체 상호작용 애니메이션 자동 생성
- 모션 캡처 장비 없이 일반 영상만으로 로봇의 작업 수행 능력 강화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.