핵심 요약
기존의 고가 장비 없이 일상 공간에서 정밀한 인간의 움직임과 주변 환경을 동시에 3D로 복원한다. 이는 로봇이 실제 세계의 복잡한 상호작용을 학습하는 데 필요한 대규모 데이터를 저비용으로 확보하게 해준다.
왜 중요한가
기존의 고가 장비 없이 일상 공간에서 정밀한 인간의 움직임과 주변 환경을 동시에 3D로 복원한다. 이는 로봇이 실제 세계의 복잡한 상호작용을 학습하는 데 필요한 대규모 데이터를 저비용으로 확보하게 해준다.
핵심 기여
저비용 휴대용 4D 데이터 수집 파이프라인 구축
고가의 모션 캡처 장비 없이 두 대의 아이폰만으로 야생 환경에서 정밀한 인간-장면 4D 데이터를 수집할 수 있는 시스템을 제안함.
이중 뷰 기반의 기하학적 정렬 및 최적화
두 대의 이동하는 카메라 궤적을 통합된 세계 좌표계로 정렬하고, 깊이 모호성을 해결하여 5cm 수준의 높은 보정 정확도를 달성함.
Embodied AI를 위한 다목적 데이터 활용성 검증
수집된 데이터를 활용해 단안 재구성 모델 미세 조정, 물리 기반 캐릭터 애니메이션 학습, 실제 휴머노이드 로봇 제어 등 세 가지 핵심 작업에서 유효성을 입증함.
핵심 아이디어 이해하기
딥러닝 기반의 인간 복원은 보통 단일 이미지에서 3D 포즈를 추정하는 Embedding 기법을 사용하지만, 실제 세계의 물리적 척도와 장면과의 일관성을 유지하는 데 한계가 있다. 특히 카메라가 움직이는 상황에서는 인간의 움직임과 배경의 기하학적 구조가 어긋나는 문제가 발생한다. EmbodMocap은 이를 해결하기 위해 먼저 정적인 장면을 복원하여 기준 좌표계를 설정하고, 두 대의 카메라에서 얻은 정보를 기하학적으로 결합한다. 두 시점의 데이터를 연결하는 과정에서 픽셀 단위의 대응 관계를 계산하고, 이를 통해 단일 시점에서는 알 수 없었던 깊이 정보를 정확히 복원한다. 결과적으로 에이전트가 실제 환경에서 물체와 상호작용하는 물리적으로 타당한 데이터를 생성한다.
방법론
전체 과정은 4단계로 나뉜다. Stage I에서는 단일 아이폰의 RGB-D 시퀀스와 IMU 데이터를 SpectacularAI SDK로 처리하여 세계 좌표계를 설정하고, TSDF Fusion을 통해 전역 장면 메쉬를 생성한다. Stage II에서는 두 대의 아이폰으로 동기화된 영상을 촬영하며 YOLO, ViTPose, SAM2를 활용해 인간의 키포인트와 마스크를 추출한다. 레이저 포인터 신호를 통해 프레임 단위의 시간 동기화를 수행한다.
Stage III에서는 COLMAP을 사용하여 각 카메라 궤적을 장면 모델에 등록한다. 이때 추적 손실(Track loss)을 계산한다. [두 뷰에서 역투영된 3D 좌표 Q1,t와 Q2,t를 입력으로] -> [두 점 사이의 유클리드 거리 제곱을 계산해] -> [오차 숫자를 얻고] -> [이 값이 작아질수록 두 카메라 시점이 하나의 3D 공간으로 정확히 정렬됨을 의미한다]. Stage IV에서는 통합된 좌표계에서 2D 키포인트를 SVD 기반 가중 최소제곱법으로 삼각측량하여 3D 좌표를 얻고, SMPLify 기법을 적용해 최종 인간 모델 파라미터를 산출한다.
주요 결과
Vicon 시스템을 이용한 지면 진리값 비교 실험에서 단안 모델(GVHMR) 및 단일 뷰 최적화 방식보다 월등한 성능을 보였다. 보정 정확도 면에서 단일 뷰가 30cm 이상의 오차를 보인 반면, 제안 방식은 약 5cm 수준의 오차를 기록했다. 물리 기반 캐릭터 학습에서는 'Support'와 같은 고난도 상호작용 기술에서 성공률을 크게 높였으며, 실제 휴머노이드 로봇에 적용했을 때도 비디오의 동작을 성공적으로 재현했다. 수집된 데이터는 23개 장면, 104개 시퀀스, 약 20만 프레임에 달하며 모든 프레임에 정밀한 SMPL 파라미터와 장면 메쉬가 포함되어 있다.
기술 상세
시스템 아키텍처는 정적 장면 복원, 동적 시퀀스 처리, 전역 좌표계 보정, 인간 모션 최적화의 4단계 파이프라인으로 구성된다. 좌표계 통합을 위해 COLMAP의 희소 특징점 매칭과 기하학적 최적화를 병행하며, 중력 방향 정렬을 유지하기 위해 회전 행렬을 z축 회전으로 제한하는 제약 조건을 적용한다. 인간 복원에는 SMPL 모델을 사용하며, 두 뷰의 2D 키포인트를 SVD 기반의 가중 최소제곱법으로 삼각측량하여 3D 좌표를 얻는다. 물리적 사실성을 높이기 위해 지터 패널티를 도입하여 연속된 동작 사이의 급격한 변화를 억제하고, 시뮬레이션 내에서 안정적인 제어 궤적을 생성하도록 유도한다.
한계점
아이폰 LiDAR 센서의 유효 거리인 약 5m를 벗어나는 깊이 정보는 기록하지 못한다. 또한 움직이는 물체가 많은 장면에서는 SLAM 성능이 저하되어 보정 오류가 발생할 수 있으며, 매우 밝은 조명 조건에서는 COLMAP 등록이 실패할 가능성이 존재한다.
실무 활용
일상적인 환경에서 로봇 학습용 데이터를 대량으로 수집하려는 연구자나 개발자에게 유용하다. 특수 장비 없이 스마트폰만으로 고품질 4D 데이터를 생성할 수 있어 데이터 수집 장벽을 낮춘다.
- 로봇의 인간 동작 모방 학습을 위한 대규모 데이터셋 구축
- AR/VR 환경에서의 정밀한 인간-물체 상호작용 콘텐츠 제작
- 가상 캐릭터의 물리 기반 애니메이션 자동 생성 시스템
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.