ArtHOI: 비디오 사전 지식을 활용한 4D 재구성을 통한 관절형 인간-사물 상호작용 합성

왜 중요한가

기존 AI는 고정된 물체를 만지는 동작은 잘 모사했지만, 냉장고 문을 열거나 서랍을 당기는 것 같은 복잡한 관절 운동을 3D 데이터 없이 구현하는 데 한계가 있었다. 이 논문은 비디오 생성 모델의 2D 지식을 4D 기하학 정보로 변환하여, 별도의 3D 학습 데이터 없이도 물리적으로 자연스러운 상호작용을 생성하는 새로운 방법론을 제시했다.

핵심 기여

비디오 사전 지식 기반의 최초 제로샷 관절형 HOI 합성 프레임워크

3D/4D 감독 학습 없이 2D 비디오 확산 모델의 사전 지식을 활용하여 관절이 있는 물체와 인간의 상호작용을 4D로 재구성하는 ArtHOI 프레임워크를 구축했다.

광학 흐름 기반의 동적 부품 분할 기법

단안 비디오에서 광학 흐름(Optical Flow)을 기하학적 단서로 활용하여 물체의 정적인 부분과 움직이는 관절 부분을 스스로 분리하는 Flow-based part segmentation 파이프라인을 설계했다.

물체 관절과 인간 동작을 분리한 2단계 최적화 전략

단안 비디오의 모호성을 해결하기 위해 먼저 물체의 관절 운동을 복원한 후, 이를 물리적 지지대로 삼아 인간의 동작을 최적화하는 디커플링 방식을 도입하여 안정성을 확보했다.

핵심 아이디어 이해하기

인간과 사물의 상호작용(HOI)을 모델링할 때 가장 큰 난관은 문을 열거나 서랍을 당기는 '관절형' 동작에 필요한 정밀한 3D 데이터가 부족하다는 점이다. 기존 방식은 2D 비디오 생성 모델을 단순히 나열하는 수준에 그쳐 손이 물체를 뚫고 지나가는 등 물리적 모순이 잦았다. ArtHOI는 이 문제를 해결하기 위해 비디오 생성 모델이 만든 2D 영상을 3D 공간을 복원하기 위한 '감독 신호'로 사용하는 역렌더링(Inverse Rendering) 개념을 도입했다.

핵심 원리는 광학 흐름(Optical Flow)을 통해 영상 속 픽셀의 이동 속도 차이를 분석하여, 어떤 부분이 고정된 축이고 어떤 부분이 움직이는 문인지 스스로 파악하는 것이다. 픽셀의 이동 거리 값을 입력으로 임계값과 비교하는 연산을 수행해 참/거짓 결과를 얻고, 이를 통해 해당 부분이 움직이는 부품인지 여부를 판별한다. 이렇게 파악된 물체의 구조를 3D 공간에 먼저 고정(Scaffold)함으로써 인간 모델이 움직일 수 있는 물리적 가이드를 제공한다.

최종적으로 고정된 물체 구조 위에서 인간 모델(SMPL-X)의 관절을 최적화한다. 이는 정교한 3D 세트장 위에서 배우가 연기하게 하는 것과 같아서, 손과 손잡이 사이의 접촉 지점을 정확히 계산하고 물리적 충돌을 방지할 수 있다. 결과적으로 텍스트 설명만으로 냉장고를 열거나 노트북을 닫는 등의 복잡한 4D 동작을 3D 데이터 없이도 물리적으로 타당하게 생성해낸다.

방법론

전체 프레임워크는 텍스트 프롬프트로부터 2D 비디오를 생성하는 단계와 이를 기반으로 4D 장면을 재구성하는 두 단계의 디커플링 파이프라인으로 구성된다. 2D 비디오 생성에는 KLing 확산 모델을 사용하며, 재구성 단계에서는 3D Gaussian Splatting(3DGS)을 표현 방식으로 채택하여 효율적인 최적화를 수행한다.

1단계인 물체 관절 복원(Object Articulation Reconstruction)에서는 광학 흐름을 기반으로 부품을 분할한다. CoTracker를 통해 2D 궤적을 추적하고, 이동 거리 $|| \Delta p ||_2$ 가 임계값 $au_f$ 보다 크면 동적 부품으로 분류한다. 이후 SAM(Segment Anything Model)으로 마스크를 생성하고 이를 3D 가우시안에 투영하여 물체의 관절 구조를 정의한다. 이때 준정적 바인딩(Quasi-static Binding) 손실 $L_a$ 를 적용하는데, 이는 인접한 정적/동적 가우시안 사이의 거리를 입력으로 초기 거리와의 차이를 계산하여 오차를 얻고, 이 값이 0에 가깝게 유지되도록 하여 부품이 본체에서 떨어져 나가는 것을 방지한다.

2단계인 인간 동작 정교화(Human Motion Refinement)에서는 복원된 물체 기하학을 하드 제약 조건으로 사용한다. 2D 영상에서 인간 마스크와 물체 실루엣이 겹치는 영역을 분석하여 3D 접촉 지점을 도출한다. 이후 SMPL-X 파라미터를 최적화할 때 운동학적 손실(Kinematic Loss) $L_k$ 를 사용한다. 추출된 3D 접촉 지점과 모델의 손 관절 위치를 입력으로 두 지점 사이의 유클리드 거리를 계산해 오차 값을 얻고, 이 값이 작아지도록 모델을 조정하여 손이 물체에 정확히 밀착되게 한다.

주요 결과

ArtHOI는 X-CLIP 스코어에서 0.244를 기록하여 기존 SOTA 모델인 ZeroHSI(0.204)보다 뛰어난 텍스트-동작 일치성을 보였다. 특히 접촉 정확도(Contact%) 면에서 75.64%를 달성하여 TRUMANS(29.07%)나 ZeroHSI(61.95%)를 크게 앞질렀으며, 물체 침투율(Penetration%)은 0.08%로 낮춰 물리적 타당성을 입증했다.

관절 운동 추정 성능을 평가하는 회전 오차(Rotation Error) 실험에서 평균 6.71도를 기록했다. 이는 단안 비디오 기반의 전문 모델인 D3D-HOI(25.13도)나 3DADN(21.17도) 대비 오차를 약 70% 이상 감소시킨 수치로, 2D 비디오 사전 지식만으로도 정밀한 3D 관절 복원이 가능함을 확인했다.

사용자 평가(User Study) 결과, 현실성(Realism), 접촉 품질(Contact Quality), 동작 부드러움(Motion Smoothness) 등 모든 항목에서 기존 방식들보다 90% 이상의 선호도를 얻었다. 냉장고, 전자레인지, 캐비닛 등 다양한 가전제품과의 상호작용에서 일관되게 높은 성능을 유지했다.

실무 활용

ArtHOI는 고가의 모션 캡처 장비나 정밀한 3D 스캔 데이터 없이도 텍스트만으로 고품질의 4D 상호작용 데이터를 생성할 수 있어 로보틱스와 가상 현실 분야에서 유용하게 활용될 수 있다.

로봇의 가전제품 조작 학습을 위한 합성 데이터셋 생성
VR/AR 게임 내 캐릭터의 자연스러운 사물 상호작용 애니메이션 자동 생성
텍스트 설명을 기반으로 한 디지털 트윈 환경의 동작 시뮬레이션
가상 홈 서비스 로봇의 행동 이해 및 계획 연구를 위한 벤치마크 구축

기술 상세

장면 표현을 위해 3D Gaussian Splatting을 사용하며, 인간 모델은 SMPL-X를 사용하여 전신 및 손가락의 세밀한 움직임을 제어한다. 2D 비디오 확산 모델의 생성 능력을 3D 기하학적 제약 조건과 결합한 역렌더링 프레임워크 구조를 가진다.

Flow-based Part Segmentation 알고리즘은 광학 흐름의 크기를 기준으로 픽셀을 분류한 뒤 이를 SAM 프롬프트로 변환하여 부품별 마스크를 얻는다. 2D 마스크를 3D 가우시안 공간으로 역투영(Back-projection)할 때, 가우시안의 불투명도( $\alpha$ )와 깊이 순서를 고려한 가중치 합산을 통해 각 가우시안의 부품 소속을 결정한다.

최적화 과정에서 준정적 바인딩(Quasi-static Binding) 손실 $L_a$ 를 도입하여 관절 경계면에서의 물리적 연속성을 보장한다. 이는 움직임이 적은 동적 가우시안과 인접한 정적 가우시안 사이의 거리를 일정하게 유지하도록 강제하여, 최적화 과정에서 부품이 본체에서 분리되는 현상을 방지한다.

인간 동작 최적화 시에는 2D 증거로부터 3D 접촉을 유도하는 3D Lifting 기법을 사용한다. 인간 마스크가 물체 실루엣을 가리는 영역을 접촉 후보지로 선정하고, 해당 영역 내에서 카메라와 가장 가까운 물체 가우시안의 3D 좌표를 접촉 목표점으로 설정하여 운동학적 일관성을 확보한다.

한계점

현재 연구는 단일 부품 관절 물체에 집중되어 있어 다중 자유도(DOF)를 가진 복잡한 구조나 비강체(Soft-body) 관절에는 한계가 있다. 또한 고정된 카메라 시점을 가정하고 있어, 카메라가 움직이는 영상에서는 자아 운동(Ego-motion)과 물체 운동의 분리가 어려워 복원 품질이 저하될 수 있다.

키워드

HOI(인간-사물 상호작용)4D Reconstruction(4D 재구성)Video Diffusion Model(비디오 확산 모델)Articulated Object(관절형 물체)Zero-shot Learning(제로샷 학습)3D Gaussian Splatting(3D 가우시안 스플래팅)