핵심 요약
기존의 로봇 시뮬레이터는 시각적 현실감이 부족하거나 2D 비디오 생성에 의존하여 정밀한 물리적 상호작용을 구현하는 데 한계가 있었다. Kinema4D는 로봇의 움직임을 기구학 기반의 4D 궤적으로 변환하고 이를 환경 반응과 결합함으로써, 복잡한 물체 조작이나 재질 변형까지 정밀하게 재현하는 새로운 차원의 4D 시뮬레이션을 가능하게 한다.
왜 중요한가
기존의 로봇 시뮬레이터는 시각적 현실감이 부족하거나 2D 비디오 생성에 의존하여 정밀한 물리적 상호작용을 구현하는 데 한계가 있었다. Kinema4D는 로봇의 움직임을 기구학 기반의 4D 궤적으로 변환하고 이를 환경 반응과 결합함으로써, 복잡한 물체 조작이나 재질 변형까지 정밀하게 재현하는 새로운 차원의 4D 시뮬레이션을 가능하게 한다.
핵심 기여
Kinema4D 프레임워크
로봇 제어의 정밀함과 생성 모델의 유연성을 결합하여 시공간적 일관성을 갖춘 4D 로봇 시뮬레이션을 구현함.
Robo4D-200k 데이터셋
20만 개 이상의 에피소드와 고품질 4D 주석을 포함하는 역대 최대 규모의 4D 로봇 상호작용 데이터셋을 구축함.
기구학 기반 4D 제어
URDF 기반 로봇 모델을 활용해 추상적인 동작 명령을 정밀한 4D 포인트맵 궤적으로 변환하여 생성 모델의 가이드로 사용함.
제로샷 전이 능력
학습 데이터에 포함되지 않은 새로운 환경과 로봇 설정에서도 물리적으로 타당한 상호작용을 생성하는 뛰어난 일반화 성능을 입증함.
핵심 아이디어 이해하기
기존 비디오 생성 기반 시뮬레이터는 로봇의 동작을 2D 픽셀 공간에서 예측하려 시도한다. 하지만 로봇과 환경의 상호작용은 본질적으로 3차원 공간에 시간이 더해진 4D 이벤트이며, 단순 2D 예측은 물체와의 거리감이나 가려짐 상황에서 물리적 오류를 범하기 쉽다.
Kinema4D는 로봇의 움직임을 추측하지 않고 기구학을 통해 계산한다. 로봇의 설계 도면인 URDF를 바탕으로 관절 각도나 말단 장치의 위치를 3D 공간 상의 좌표 집합인 포인트맵으로 변환한다. 이 포인트맵은 시간에 따른 로봇의 정확한 점유 공간을 나타내며, 생성 모델이 물리 법칙을 준수하도록 돕는 강력한 가이드 역할을 한다.
이렇게 생성된 로봇의 4D 궤적을 바탕으로 Diffusion Transformer가 주변 환경의 반응을 생성한다. 결과적으로 시각적으로는 실제 영상 같으면서도, 기하학적으로는 모든 픽셀의 깊이와 움직임이 3D 공간에 접지된 정밀한 4D 시뮬레이션 결과물을 얻게 된다.
방법론
Kinematics Control 단계에서는 입력된 로봇 동작 시퀀스를 URDF 기반 모델과 역기구학(IK)/순기구학(FK)을 사용하여 4D 로봇 궤적으로 확장한다. 역기구학 솔버를 사용하여 를 계산한다. [목표 위치 와 이전 상태 를 입력으로] → [관절 각도 조합을 찾는 연산을 수행해] → [현재 시점의 관절 구성 를 얻고] → [이는 로봇이 목표 지점에 도달하기 위한 정밀한 자세를 의미한다.] 이 궤적은 카메라 평면에 투영되어 픽셀 단위의 (x, y, z) 좌표를 저장하는 포인트맵 시퀀스 로 변환된다.
4D Generative Modeling 단계에서는 Latent Video Diffusion 모델을 기반으로 환경의 반응을 합성한다. 초기 RGB 이미지 와 로봇 포인트맵 시퀀스 를 결합하여 VAE 인코더를 통해 잠재 공간으로 투사한다. 이때 공유된 VAE는 서로 다른 모달리티를 동기화된 잠재 표현으로 매핑한다.
Diffusion Transformer 백본은 노이즈가 섞인 잠재 변수를 입력받아 원래의 RGB 및 포인트맵 시퀀스를 복원한다. 학습 시에는 목적 함수를 사용하여 실제 영상과 생성된 영상 간의 차이를 최소화한다. [실제 노이즈 과 모델이 예측한 노이즈 를 입력으로] → [두 값의 차이의 제곱을 계산하여] → [손실값을 얻고] → [이 값이 작을수록 모델이 실제 데이터의 분포를 정확히 학습했음을 의미한다.]
정밀한 픽셀 제어를 위해 로봇 마스크 을 도입하여 로봇이 점유한 영역을 명시적으로 구분한다. 또한 Rotary Positional Encoding(RoPE)을 사용하여 RGB와 포인트맵 간의 위치 정렬을 유지하며, LoRA를 통한 효율적인 파인튜닝으로 대규모 모델의 사전 학습 지식을 보존하면서 로봇 도메인 지식을 주입한다.
주요 결과
비디오 생성 품질 평가에서 Kinema4D는 PSNR 22.50, SSIM 0.864, FVD 98.5를 기록하며 UniSim, TesserAct 등 기존 최신 모델들을 압도했다. 특히 기하학적 정확도를 측정하는 Chamfer Distance(CD-)에서 0.0479를 달성하여 TesserAct(0.0836) 대비 약 42% 향상된 정밀도를 보였다.
실제 로봇 환경에서의 제로샷 평가 결과, 학습에 사용되지 않은 새로운 실험실 환경과 로봇 팔 설정에서도 높은 성공률을 기록했다. 시뮬레이션 환경에서의 pick-and-place 성공률은 0.84로 실제 실행 결과(0.80)와 매우 유사한 양상을 보였으며, 이는 모델이 단순한 시각적 흉내를 넘어 물리적 인과관계를 학습했음을 시사한다.
Ablation Study를 통해 포인트맵 표현의 중요성을 확인했다. 텍스트 지시문이나 단순 2D 마스크를 사용했을 때보다 포인트맵을 사용했을 때 PSNR이 약 1~2.6점 높게 나타났으며, 이는 4D 공간 정보가 정밀한 제어에 필수적임을 입증한다.
실무 활용
Kinema4D는 고비용의 실제 로봇 실험을 대체할 수 있는 고충실도 시뮬레이터로 활용될 수 있다. 특히 데이터가 부족한 복잡한 조작 작업의 데이터를 생성하거나, 새로운 로봇 정책을 안전하게 평가하는 데 유용하다.
- 로봇 학습을 위한 대규모 합성 데이터셋 생성 (Data Augmentation)
- 실제 환경 배포 전 로봇 제어 알고리즘의 안전성 및 성능 검증
- 다양한 로봇 하드웨어에 대한 범용적 시뮬레이션 환경 구축
- 물체 변형이나 가려짐이 빈번한 복잡한 환경에서의 로봇 조작 훈련
기술 상세
아키텍처는 WAN 2.1(14B 파라미터)을 베이스 모델로 하며, 4DNex의 4D 인식 사전 학습 가중치를 활용한다. 로봇의 기구학적 정보를 주입하기 위해 텍스트 임베딩 대신 로봇 시퀀스의 VAE 잠재 변수를 조건부 입력으로 사용하도록 구조를 변경했다.
3D 자산 획득을 위해 Grounded-SAM2와 ReconViaGen을 결합한 파이프라인을 구축했다. 이를 통해 단일 뷰 영상만으로도 1분 내외의 짧은 시간에 고품질의 텍스트화된 로봇 메시를 복원하고 URDF 모델과 정렬할 수 있다.
포인트맵 정규화 전략을 사용하여 [0, 1] 범위로 좌표를 매핑함으로써, 절대 좌표계에 의존하지 않고 상대적인 기하학적 관계와 물체 간의 상호작용에 집중하도록 유도했다. 이는 다양한 스케일의 작업 공간에 대한 일반화 성능을 높이는 핵심 요소이다.
학습 데이터셋인 Robo4D-200k는 DROID, Bridge, RT-1 등 기존 2D 데이터셋을 ST-v2를 이용해 4D로 리프팅하여 구축했다. 또한 LIBERO 플랫폼을 통해 의도적인 실패 사례를 합성하여 모델이 성공과 실패의 물리적 차이를 명확히 구분하도록 학습시켰다.
한계점
환경 역학이 명시적인 물리 제약 조건(강체 역학, 마찰 계수 등)에 의해 통제되는 것이 아니라 통계적 합성을 통해 학습되므로, 때때로 에너지 보존 법칙을 위반하거나 물체가 서로 겹치는 현상이 발생할 수 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료