엥지유니버스Robotics조회 1회

Physical AI를 위한 로봇 행동 데이터 수집 및 변환 기술 분석: DexCap과 AirExo를 중심으로

DexCap과 AirExo 연구를 통해 사람의 시연 데이터를 로봇이 학습 가능한 고품질 행동 데이터로 변환하는 아키텍처와 파이프라인을 분석한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

단순한 영상 촬영을 넘어 센서 좌표계 정렬, Retargeting, Visual Adaptation이 결합된 정교한 데이터 파이프라인 구축이 Physical AI 시대의 핵심 경쟁력이다.

배경

Physical AI와 VLA 모델의 발전에도 불구하고 로봇이 물리 세계에서 학습할 수 있는 행동 데이터의 부족은 여전히 큰 병목 현상이다.

대상 독자

로봇 공학 연구자, Embodied AI 개발자, Physical AI 데이터 파이프라인에 관심 있는 엔지니어

의미 / 영향

로봇 행동 데이터 수집의 병목 현상이 생성형 AI 기반의 데이터 변환 기술로 완화되면서 Physical AI의 발전 속도가 빨라질 것이다. 고가의 로봇 장비 없이도 일상적인 사람의 동작 시연만으로 로봇 학습 데이터를 대량 생성할 수 있는 파이프라인 구축이 기업의 핵심 경쟁력이 될 것이다.

챕터별 상세

00:00

로봇 행동 데이터의 중요성과 시범 데이터(Demonstration)의 개념

LLM이나 VLM과 달리 로봇은 실제 물리 세계에서 팔의 위치, 힘, 접촉 정보 등 복합적인 행동 데이터를 필요로 한다. 이를 해결하기 위해 사람이 직접 작업을 수행하고 로봇이 이를 따라 하는 모방 학습(Imitation Learning)이 중요하게 다뤄진다. 시범 데이터는 영상뿐만 아니라 관절 각도와 작업 성공 여부 정보를 포함해야 하며, 이를 효율적으로 모으는 것이 Physical AI의 핵심 과제이다.

01:34

원격 조작(Teleoperation)의 한계와 새로운 연구 질문

기존의 원격 조작 방식은 고품질 데이터를 보장하지만 실제 로봇 장비가 필요하고 수집 속도가 느려 비용이 매우 높다. 연구자들은 '꼭 실제 로봇을 움직여야만 데이터를 얻을 수 있는가'라는 질문을 던지며 사람이 자연스럽게 작업하는 데이터를 로봇용으로 변환하는 기술을 개발하기 시작했다. DexCap과 AirExo는 이러한 질문에 답하는 대표적인 연구 사례로 꼽힌다.

02:14

DexCap: 휴대 가능한 핸드 모션 캡처 시스템

DexCap은 사람이 착용하고 일상 환경에서 손 조작 데이터를 수집할 수 있는 시스템이다. SLAM 기술과 전자기장 기반 장갑을 이용해 손목 및 손가락의 움직임을 추적하고 주변 환경의 3D 관측 정보를 동시에 기록한다. 수집된 데이터는 DexIL이라는 학습 파이프라인을 통해 로봇의 행동 정책으로 변환된다.

SLAM은 센서가 자신의 위치를 추정하면서 동시에 주변 지도를 만드는 기술이다.

04:11

Retargeting과 역기구학(Inverse Kinematics)의 적용

사람과 로봇은 손가락 개수와 관절 범위가 다르기 때문에 사람의 움직임을 그대로 복사할 수 없다. DexCap은 역기구학(IK)을 사용하여 사람 손끝의 3D 위치를 기준으로 로봇 손가락이 최대한 비슷한 접촉을 만들도록 관절값을 다시 계산한다. 이 과정을 통해 사람의 도메인 데이터를 로봇 도메인에 맞게 매핑하는 Retargeting을 수행한다.

05:22

DexCap의 하드웨어 구성과 데이터 수집 과정

하드웨어는 가슴에 착용하는 LiDAR 카메라 랙과 백팩에 담긴 미니 PC(Intel NUC), 파워뱅크로 구성된다. L515 LiDAR는 작업 공간의 깊이 정보를 얻고, T265 카메라는 손바닥 위치를 추적하며, Rokoko 장갑은 손가락 움직임을 기록한다. 사용자가 장비를 착용하고 이동하며 실제 생활 환경(In-the-wild)에서 데이터를 수집할 수 있는 구조이다.

06:41

AirExo: 저비용 양팔 외골격 시스템을 통한 데이터 수집

AirExo는 손끝 조작을 넘어 팔 전체를 활용하는 Whole-Arm Manipulation 데이터 수집에 집중한다. 로봇이 팔꿈치로 문을 밀거나 팔뚝으로 물체를 받치는 동작을 배우려면 손끝 위치뿐만 아니라 팔 전체의 Joint-level 움직임 정보가 필요하다. 이를 위해 저비용으로 제작 가능한 휴대용 양팔 외골격 장치를 제안한다.

07:46

AirExo의 하이브리드 데이터 수집 전략

AirExo는 두 가지 방식으로 데이터를 생성한다. 첫째는 외골격을 착용하고 실제 로봇을 원격 조종하는 방식이고, 둘째는 로봇 없이 일상 환경에서 작업 시연만 수행하는 방식이다. 값싼 일상 환경 데이터로 작업의 큰 전략(High-level strategy)을 배우고, 비싼 원격 조종 데이터로 세밀한 동작(Fine-grained motion)을 보정하는 계층적 학습 구조를 가진다.

10:22

AirExo-2: 시각적 도메인 차이 극복을 위한 발전

AirExo-2는 사람이 외골격을 착용하고 작업한 영상 데이터를 로봇이 직접 작업한 것처럼 보이는 '수도 로봇 시연(Pseudo-robot demonstration)' 데이터로 변환한다. 원본 영상에는 사람의 손과 외골격 장비가 보이지만, 로봇은 실제 작업 시 로봇 팔을 보게 되므로 이 시각적 도메인 차이(Visual Gap)를 줄이는 것이 핵심이다. 이를 위해 Image Adaptor와 Depth Adaptor를 포함한 세 가지 변환기를 사용한다.

13:26

Image Adaptor의 작동 원리와 생성형 AI의 활용

Image Adaptor는 원본 RGB 영상에서 사람 손과 장비 영역을 SAM 2로 추출하여 지운 뒤 ProPainter로 배경을 복원한다. 그 위에 로봇 모델을 렌더링하고 ControlNet이 가이드하는 Stable Diffusion을 사용하여 실제 환경과 어울리는 로봇 이미지를 합성한다. 결과적으로 사람이 작업한 영상이 로봇이 작업한 영상으로 완벽하게 변환된다.

ProPainter는 비디오나 이미지에서 지워진 영역을 자연스럽게 복원하는 인페인팅(Inpainting) 모델이다.

16:45

Depth Adaptor와 Operation Space Adaptor

Depth Adaptor는 깊이 정보에서도 사람의 형태를 지우고 로봇 팔의 깊이 정보를 병합하여 3D 공간 정보를 정렬한다. Operation Space Adaptor는 외골격 장비의 관절값을 로봇이 실행 가능한 좌표계로 변환한다. 모든 상태와 행동 데이터를 공통 좌표계(Global Camera Coordinate)로 투영하여 사람의 움직임과 로봇의 움직임을 직접 비교 학습할 수 있게 한다.

20:02

RISE-2 정책 아키텍처 분석

RISE-2는 변환된 데이터를 바탕으로 로봇의 행동을 생성하는 정책 모델이다. DINOv2 기반의 Dense Encoder로 시각적 특징을 추출하고, Sparse Encoder로 3D 기하학적 특징을 추출한 뒤 Spatial Aligner를 통해 두 정보를 3D 좌표 기준으로 결합한다. 최종적으로 Diffusion Action Head를 사용하여 노이즈를 정제하며 연속적인 로봇 행동(Action Chunk)을 생성한다.

Action Chunk는 한 시점의 행동만 출력하는 것이 아니라 가까운 미래의 여러 스텝 행동을 묶어서 출력하여 제어의 안정성을 높이는 방식이다.

23:05

Physical AI 데이터 경쟁의 본질

최근 로봇 행동 데이터 확보는 단순히 영상을 많이 찍는 경쟁에서 센서 정렬, Retargeting, Visual Adaptation 기술이 결합된 '데이터 파이프라인 경쟁'으로 진화하고 있다. 로봇이 실제로 배울 수 있는 형태로 데이터를 정리하고 사람과 로봇 사이의 도메인 차이를 줄이는 기술력이 핵심이다. 향후 일반 영상 속 사람의 움직임에서 행동 데이터를 추출하는 연구가 가속화될 전망이다.

실무 Takeaway

로봇 모방 학습을 위해 사람의 동작을 로봇 관절 구조에 맞게 변환하는 Retargeting 과정에서 역기구학(IK)을 활용하여 접촉 정확도를 높일 수 있다.
시각적 도메인 차이를 해결하기 위해 SAM 2와 Stable Diffusion을 결합한 Image Adaptor를 사용하여 사람 시연 영상을 로봇 작업 영상으로 자동 변환할 수 있다.
데이터 수집 시 High-level 전략은 저비용 일상 환경 데이터로 학습하고, Fine-grained 동작은 고비용 원격 조종 데이터로 보정하는 하이브리드 전략이 효율적이다.
로봇 제어 시 단일 시점의 행동 대신 여러 스텝의 행동을 묶은 Action Chunk를 생성함으로써 물리적 동작의 안정성을 확보할 수 있다.

언급된 리소스

DemoDexCap Project Page

DemoAirExo Project Page

DemoAirExo-2 Project Page

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 05. 04.수집 2026. 05. 04.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.