HSImul3R: 시뮬레이션 가능한 인간-장면 상호작용의 물리 기반 루프 재구성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 3D 재구성 기술은 시각적으로는 그럴듯하지만 물리 법칙을 무시하여 로봇 시뮬레이션에서 물체가 튕겨 나가거나 공중에 뜨는 문제가 있었다. 이 논문은 물리 시뮬레이터를 학습 과정에 직접 포함시켜, 재구성된 데이터를 수정 없이 실제 휴머노이드 로봇에 바로 적용할 수 있는 수준으로 정교화했다.

왜 중요한가

핵심 기여

물리 기반 양방향 최적화 파이프라인

물리 시뮬레이터를 능동적인 감독자로 활용하여 인간의 동작과 장면의 기하학적 구조를 동시에 정교화하는 통합 프레임워크를 구축했다.

장면 타겟 강화학습 기법

인간의 동작 최적화 시 동작 정확도뿐만 아니라 물체와의 접촉 안정성을 보상으로 제공하여 물리적으로 타당한 상호작용을 유도한다.

직접 시뮬레이션 보상 최적화(DSRO)

시뮬레이션 피드백(중력 안정성, 상호작용 성공 여부)을 사용하여 3D 생성 모델이 만든 물체의 구조적 결함을 수정하고 물리적 신뢰도를 높인다.

HSIBench 데이터셋 구축 및 로봇 실증

300개의 다양한 상호작용 사례를 포함한 벤치마크를 구축하고, 최적화된 동작을 실제 Unitree G1 휴머노이드 로봇에 성공적으로 이식하여 실용성을 증명했다.

핵심 아이디어 이해하기

기존 3D 재구성은 주로 이미지 상의 픽셀을 맞추는 시각적 정렬에 집중한다. 하지만 물리 엔진에서는 아주 작은 겹침(Penetration)이나 어긋남이 거대한 반발력을 발생시켜 물체가 날아가 버리는 등 불안정성을 초래한다. 이는 딥러닝 모델이 시각적 일치만 학습하고 물리적 제약 조건을 고려하지 않기 때문에 발생하는 문제이다.

HSImul3R은 물리 시뮬레이터를 손실 함수(Loss Function)의 일부로 끌어들여 이 간극을 메운다. 인간의 동작을 수정할 때는 강화학습을 사용하여 물체와의 거리를 좁히고 안정적인 접촉을 유지하도록 유도한다. 반대로 물체의 모양이 이상해서 상호작용이 안 될 때는 시뮬레이션의 '성공/실패' 신호를 보상으로 삼아 물체의 3D 구조를 다시 생성하도록 모델을 가이드한다.

결과적으로 이 방식은 단순히 '보는 것'을 넘어 '실제로 동작하는' 데이터를 생성한다. 가상 세계에서 재구성된 인간의 움직임을 실제 로봇의 제어 알고리즘으로 즉시 변환할 수 있는 기반을 마련함으로써, 데이터 수집과 로봇 배포 사이의 장벽을 낮춘다.

방법론

전체 파이프라인은 정적인 장면 구조와 동적인 인간 동작을 독립적으로 재구성한 뒤, 3D 생성 모델의 사전 지식(Prior)을 활용해 정렬하는 것으로 시작한다. DUSt3R로 환경을 복원하고 4DHumans로 인간의 초기 동작을 추출한 후, 이미지-to-3D 모델인 MIDI를 통해 물체의 정교한 3D 메쉬를 생성한다.

순방향 최적화(Forward-pass)에서는 장면 타겟 강화학습을 수행한다. 인간의 접촉 키포인트와 가장 가까운 물체 표면 점 사이의 유클리드 거리를 계산하여 손실을 최소화한다. [인간 관절 위치와 물체 표면 좌표를 입력으로] → [두 점 사이의 거리를 계산하여] → [거리의 제곱합 결과를 얻고] → [이 값이 작아질수록 모델이 물체에 더 가깝고 안정적으로 접촉하도록 관절 토크를 조절한다].

역방향 최적화(Reverse-pass)에서는 DSRO를 도입한다. 시뮬레이션 내에서 물체가 중력에 의해 쓰러지지 않고 인간과 성공적으로 상호작용하는지를 이진 값 l(x0)로 판단한다. [시뮬레이션 성공 여부(0 또는 1)를 입력으로] → [확산 모델의 노이즈 예측 오차에 가중치를 곱하는 연산을 수행하여] → [물리적으로 불안정한 구조의 생성 확률을 낮추는 결과를 얻고] → [결과적으로 물리적으로 견고한 형태를 생성하도록 LoRA 파인튜닝을 진행한다].

주요 결과

HSIBench 데이터셋에서 기존 SOTA 모델인 HSfM 대비 상호작용 안정성(Stability-HSI)이 대폭 향상되었다. 'Easy' 시나리오에서 HSfM은 10.52%의 안정성을 보인 반면, HSImul3R은 53.68%를 기록하여 약 5배 이상의 성능 개선을 입증했다.

장면 침투율(Scene Penetration) 분석에서 제안된 방식은 22.9%를 기록하여 HSfM(69.51%)보다 훨씬 낮은 수치를 보였다. 이는 물리 기반 최적화가 인간과 물체 사이의 비현실적인 겹침 현상을 효과적으로 억제했음을 나타낸다.

실제 로봇 배포 실험에서 최적화된 동작 데이터를 Unitree G1 휴머노이드 로봇에 적용한 결과, 로봇이 의자에 앉거나 테이블을 사용하는 등의 복잡한 상호작용을 실제 환경에서 안정적으로 수행하는 데 성공했다.

기술 상세

아키텍처는 DUSt3R 기반의 전역 정렬과 MIDI 기반의 객체별 구조 복원을 결합한다. 특히 2D 키포인트를 가이드로 사용하는 인간 중심 번들 조정(Human-centric Bundle Adjustment)을 통해 서로 다른 좌표계를 통일한다.

물리적 제약 조건은 부호 거리 함수(SDF)를 통해 수치화된다. 접촉 시에는 침투 깊이가 0보다 커지지 않도록 강제하는 손실 함수를 적용하며, 비접촉 시에는 상호 인력을 계산하여 물리적으로 타당한 근접성을 유도한다.

DSRO는 RLHF의 원리를 3D 생성에 적용한 것으로, 시뮬레이션 결과를 보상 신호로 변환하여 확산 모델의 노이즈 예측 오차를 가중치화한다. 이를 통해 생성 결과물을 물리적으로 타당한 매니폴드(Manifold) 내로 유도한다.

구현 측면에서는 IsaacGym 시뮬레이터를 활용하며, LoRA(Rank=64)를 사용하여 이미지-to-3D 모델을 효율적으로 파인튜닝한다. 4대의 NVIDIA A100 GPU에서 약 1800 스텝의 학습을 거쳐 최적화된 성능을 확보했다.

한계점

복잡한 상호작용이나 3개 이상의 물체가 포함된 시나리오에서는 성공률이 아직 높지 않다. 또한 휴머노이드와 물체가 상호작용하지 않고 단순히 따로 서 있는 실패 사례가 존재하며, 파인튜닝된 모델이 학습 데이터셋의 편향을 상속받을 수 있다.

실무 활용

유튜브 영상이나 일상적인 촬영 영상만으로 로봇 학습용 데이터를 대량으로 생성할 수 있는 기술이다. 재구성된 데이터가 물리적으로 검증되었으므로 별도의 수정 없이 시뮬레이션 학습에 즉시 투입 가능하다.

유튜브 영상을 활용한 휴머노이드 로봇의 일상 동작 학습 데이터셋 구축
가상 VR 환경에서의 정교한 인간-사물 상호작용 구현
로봇 제어 정책(Policy) 학습을 위한 물리 기반 디지털 트윈 생성

코드 공개 여부: 비공개

키워드

HSI(인간-장면 상호작용)Physics-in-the-Loop(물리 기반 루프)Reinforcement Learning(강화학습)3D Reconstruction(3D 재구성)Humanoid Robot(휴머노이드 로봇)Embodied AI(체화된 인공지능)