핵심 요약
휴머노이드 로봇이 복잡한 환경에서 물체와 상호작용하는 동작을 학습시키려면 막대한 양의 실제 데이터가 필요했습니다. 이 논문은 대규모 비디오 생성 모델이 이미 알고 있는 '세상의 물리 법칙'을 활용해 로봇의 행동을 상상하고 이를 실제 동작으로 변환함으로써, 추가 데이터 수집 없이도 새로운 환경에서 로봇을 제어할 수 있는 길을 열었습니다.
왜 중요한가
휴머노이드 로봇이 복잡한 환경에서 물체와 상호작용하는 동작을 학습시키려면 막대한 양의 실제 데이터가 필요했습니다. 이 논문은 대규모 비디오 생성 모델이 이미 알고 있는 '세상의 물리 법칙'을 활용해 로봇의 행동을 상상하고 이를 실제 동작으로 변환함으로써, 추가 데이터 수집 없이도 새로운 환경에서 로봇을 제어할 수 있는 길을 열었습니다.
핵심 기여
3인칭 비디오 기반 통합 제어 인터페이스
로봇과 환경의 상호작용을 3인칭 비디오 생성 문제로 정의하여, 대규모 비디오 모델의 일반화 능력을 휴머노이드 제어에 직접 활용하는 프레임워크를 구축했다.
로봇-인간 형태 전이 메커니즘
로봇의 외형을 인간의 형태로 변환하여 비디오 생성 모델의 성능을 극대화하고, 생성된 영상에서 더 정확한 동작 정보를 추출할 수 있도록 설계했다.
계층적 작업 분해 및 프롬프트 구조화
추상적인 명령을 실행 가능한 세부 동작 체인으로 분해하고, 이를 물리적으로 타당한 비디오로 생성하기 위한 구조적 프롬프트 템플릿을 제안했다.
제로샷 환경 일반화 입증
실제 세계의 데이터 수집 없이도 생성된 비디오만으로 휴머노이드 로봇이 의자에 앉거나 물건을 집어 옮기는 등 다양한 난이도의 작업을 수행함을 증명했다.
핵심 아이디어 이해하기
기존의 로봇 제어는 로봇이 직접 보고 겪은 데이터를 바탕으로 학습하는 방식이었으나, 이는 데이터 수집 비용이 너무 크고 새로운 환경에 적응하기 어렵다는 한계가 있었습니다. 마치 사람이 요리 책의 사진만 보고도 대략적인 조리 과정을 짐작하듯, 로봇에게도 '시각적 상상력'을 부여하려는 시도가 이 논문의 출발점입니다.
ExoActor는 비디오 생성 모델이 수많은 영상을 통해 학습한 '인간의 움직임'과 '물체의 반응'에 대한 Embedding 정보를 활용합니다. 로봇의 현재 상태를 인간의 모습으로 살짝 바꾼 뒤(Embodiment Transfer), 비디오 모델에게 작업 완료 과정을 그리게 하면 모델은 물리적으로 자연스러운 동작 시퀀스를 생성합니다. 이는 복잡한 Loss Function을 직접 설계하지 않아도 비디오 모델 내부의 사전 지식이 가이드 역할을 수행함을 의미합니다.
결과적으로 로봇은 직접 경험해보지 못한 낯선 방에서도 '의자에 앉기'나 '바구니에 병 넣기' 같은 복잡한 상호작용을 수행할 수 있게 됩니다. 이는 고차원적인 시각 정보가 저차원적인 모터 제어 신호 사이의 간극을 메우는 강력한 중간 매개체가 될 수 있음을 보여줍니다.
관련 Figure

로봇의 포즈와 주변 환경은 그대로 유지하면서 로봇 본체만 인간으로 바꾼 결과를 보여준다. 이를 통해 비디오 생성 모델이 더 정확한 물리적 상호작용을 예측할 수 있게 된다.
로봇 이미지를 인간 이미지로 변환한 형태 전이 예시
방법론
ExoActor의 파이프라인은 크게 세 단계로 구성된다. 첫째, 비디오 생성 단계에서는 로봇의 초기 관측 이미지를 인간 형태로 변환한 후, GPT-5.4 Thinking을 통해 작업을 세부 동작 체인(Action Chain)으로 분해한다. 이후 Kling과 같은 비디오 생성 API를 사용하여 10초 분량의 3인칭 작업 수행 영상을 생성한다.
둘째, 동작 추출 단계에서는 생성된 영상으로부터 3D 인간 운동학(Kinematics) 정보를 복원한다. GENMO 모델을 사용하여 전신 동작을 추정하고, WiLoR를 통해 양손의 정밀한 포즈와 파지 상태(Open/Closed)를 추출한다. 이때 SMPL 파라미터 [관절 회전값 → 순운동학 연산 → 3D 좌표] 과정을 거쳐 시각적 픽셀 정보를 물리적 수치로 변환한다.
셋째, 동작 실행 단계에서는 추출된 궤적을 SONIC 컨트롤러에 입력한다. 컨트롤러는 [현재 로봇 상태와 참조 궤적 입력 → 정책 신경망 추론 → 관절 토크 출력] 순으로 연산하여, 물리적 제약 조건을 준수하면서도 생성된 영상의 동작을 안정적으로 추종한다.
관련 Figure

작업 명령과 초기 관측값이 입력되면 형태 전이, 비디오 생성, 동작 추출, 전신 실행으로 이어지는 과정을 보여준다. 시각적 상상이 물리적 실행으로 변환되는 핵심 메커니즘을 도식화했다.
ExoActor 프레임워크의 전체 파이프라인 구성도
주요 결과
실험은 난이도에 따라 B(기초 이동), A(단순 상호작용), S(정밀 조작) 세 단계로 나누어 진행됐다. B단계에서는 장애물 회피 및 목표 지점 도달을 안정적으로 수행했으며, A단계에서는 의자에 앉기, 상자 들고 일어서기 등 전신 협응이 필요한 동작을 성공적으로 실행했다. 가장 어려운 S단계에서도 바구니에 병을 세워 넣거나 쓰레기통에 물건을 던져 넣는 등 정밀한 손-물체 상호작용이 가능함을 확인했다.
Ablation Study 결과, 비디오 모델 중 Kling 3가 가장 물리적으로 타당하고 일관성 있는 영상을 생성했다. 또한 로봇의 외형을 그대로 사용하는 것보다 인간 형태로 변환했을 때 비디오 생성의 안정성과 동작 추출의 정확도가 크게 향상되었다. 시점 분석에서는 이동 작업의 경우 후방 시점이, 조작 작업의 경우 전방 시점이 더 높은 성공률을 보였다.
관련 Figure

바구니에 병을 세워 넣거나 쓰레기통에 물건을 던지는 등 정밀한 손-물체 상호작용 결과를 보여준다. 생성된 비디오가 복잡한 조작 작업에서도 유효한 가이드를 제공함을 입증한다.
가장 높은 난이도인 S-level 작업 수행 사례
기술 상세
ExoActor는 로봇 제어의 고차원 계획(Planning)과 저차원 실행(Execution) 사이의 간극을 3인칭 비디오라는 중간 표현형(Intermediate Representation)으로 연결한다. 아키텍처의 핵심은 로봇-인간 형태 전이(Embodiment Transfer)로, Gemini 3.1 Pro를 활용해 씬의 기하학적 구조와 카메라 뷰포트를 유지하면서 로봇만 인간으로 교체한다. 이는 비디오 모델의 학습 분포(Human-centric Priors)와 입력 데이터의 분포를 일치시켜 할루시네이션을 억제하는 효과를 준다.
동작 추출 시에는 SMPL 모델을 기반으로 전신 궤적을 생성하며, 손 동작의 경우 24 FPS 영상에서 각 프레임별로 양손의 3D 포즈와 이진화된 파지 상태를 추정한다. 특히 전통적인 리타겟팅 과정에서 발생하는 공간적 오차를 줄이기 위해, 대규모 신경망 기반 컨트롤러인 SONIC을 사용하여 노이즈가 섞인 참조 궤적에서도 물리적으로 안정적인 토크 값을 도출한다. 이는 시스템이 일종의 '물리 필터' 역할을 수행하게 하여 시각적 상상이 실제 물리 법칙을 위배하더라도 로봇이 넘어지지 않게 보정한다.
한계점
현재 시스템은 오프라인 파이프라인으로 구성되어 비디오 생성부터 실행까지 상당한 지연 시간이 발생한다. 또한 생성된 비디오가 시각적으로는 그럴듯하지만 물리적 제약(접촉력, 무게 중심 등)을 완벽히 준수하지 못하는 경우가 있어, 실행 단계에서 보조 도구를 사용해야 하는 한계가 있다. 1인칭 시점(Egocentric) 데이터만 있는 환경에서의 적용과 실시간 스트리밍 제어는 향후 과제로 남아있다.
실무 활용
ExoActor는 실제 로봇 데이터 없이도 비디오 생성 모델만으로 휴머노이드의 복잡한 행동을 생성할 수 있어, 로봇 학습의 데이터 병목 현상을 해결할 실무적 대안을 제시한다.
- 가정 내 서비스 로봇의 새로운 가구/가전 상호작용 동작 생성
- 공장 내 비정형 작업에 대한 로봇 동작 가이드라인 자동 생성
- 로봇 시뮬레이션 학습을 위한 고품질 합성 데이터(Synthetic Data) 생성
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.