핵심 요약
물리적 지능(Embodied Intelligence) 발전을 가로막는 가장 큰 병목 현상인 로봇 전용 데이터의 부족 문제를 해결하기 위해 인터넷상의 방대한 인간 활동 비디오를 활용하는 새로운 패러다임을 제시합니다. 1,000시간의 인간 비디오 학습이 100시간의 실제 로봇 데이터 학습 성능을 능가함을 입증하여 로봇 학습의 확장성을 확보했습니다.
왜 중요한가
물리적 지능(Embodied Intelligence) 발전을 가로막는 가장 큰 병목 현상인 로봇 전용 데이터의 부족 문제를 해결하기 위해 인터넷상의 방대한 인간 활동 비디오를 활용하는 새로운 패러다임을 제시합니다. 1,000시간의 인간 비디오 학습이 100시간의 실제 로봇 데이터 학습 성능을 능가함을 입증하여 로봇 학습의 확장성을 확보했습니다.
핵심 기여
100만 시간 규모의 HumanNet 데이터셋 구축
1인칭 및 3인칭 시점을 모두 포함하며, 미세한 도구 사용부터 장기적인 행동까지 아우르는 대규모 인간-물체 상호작용 비디오 코퍼스를 구축했다.
체계적인 데이터 큐레이션 파이프라인 설계
인간 중심 필터링, 시점 다양성 확보, 3D 손/포즈 감지 및 LLM 기반 캡셔닝을 포함한 자동화된 주석 생성 프로세스를 통해 비정형 인터넷 비디오를 학습 가능한 자산으로 변환했다.
인간 비디오의 로봇 데이터 대체 가능성 입증
VLA(Vision-Language-Action) 모델 실험을 통해 HumanNet의 1인칭 비디오 1,000시간이 실제 로봇 데이터 100시간보다 더 나은 성능을 제공함을 확인했다.
관련 Figure

1인칭 및 3인칭 비디오가 각각 로봇 조작과 전신 동작으로 변환되는 과정을 보여주며, 캡션, 동작, 정체성 등 풍부한 주석 정보를 시각화한다. 100만 시간에 달하는 데이터 규모와 객체 다양성을 한눈에 확인할 수 있다.
HumanNet 데이터셋의 구성과 주석 체계 개요도
핵심 아이디어 이해하기
기존의 로봇 학습은 특정 로봇 하드웨어에서 수집된 데이터에 의존했기 때문에 데이터 확보 비용이 매우 높고 다양성이 부족했다. 이는 Transformer 기반 모델이 인터넷의 방대한 텍스트와 이미지로 성능을 확장한 것과 대조되는 물리적 지능 분야의 고질적인 한계였다.
HumanNet은 인간이 물리적 세계와 상호작용하는 모습이 담긴 비디오가 로봇에게 필요한 '물리적 인과관계'와 '동작 원리'를 가르칠 수 있는 훌륭한 교재라는 점에 착안했다. 1인칭 시점 비디오는 로봇의 카메라 뷰와 유사하여 손과 물체의 접촉 역학을 배우기에 적합하고, 3인칭 시점은 전신 동작과 주변 환경의 맥락을 이해하는 데 도움을 준다.
이러한 방대한 비디오 데이터를 단순히 모으는 것에 그치지 않고, 3D 포즈 추정과 SLAM 기술을 통해 픽셀 정보를 물리적인 운동 기하학 정보로 변환했다. 결과적으로 로봇은 실제 로봇 데이터를 직접 보지 않고도 인간의 행동을 관찰함으로써 사물을 어떻게 다루고 움직여야 하는지에 대한 강력한 사전 지식을 습득하게 된다.
방법론
데이터 수집 단계에서는 키워드 확장 및 채널 크롤링을 통해 유튜브 등 비디오 플랫폼에서 후보 영상을 확보하고, 인간 중심 필터링을 거쳐 물리적으로 의미 있는 활동이 포함된 영상만 선별한다.
데이터 처리 단계에서는 중복 제거 및 정규화를 수행한 뒤, 장면 전환(Scene Split) 알고리즘을 적용하여 긴 영상을 독립적인 활동 단위의 클립으로 분할한다. 이때 심한 블러나 가려짐이 있는 저품질 영상은 품질 필터링을 통해 배제한다.
주석 생성(Annotation) 단계에서는 3D Hand/Pose Detection을 통해 관절 궤적을 추출하고, Retargeting 모듈을 사용하여 인간의 움직임을 로봇의 골격 구조로 변환한다. 또한 LLM을 활용하여 동작 설명(Motion Description)과 활동 분류 주석을 자동으로 생성하여 멀티모달 학습이 가능하도록 구성한다.
관련 Figure

주로 'opening', 'holding', 'cutting' 등 물리적 상호작용이 강한 동사들이 핵심을 이루며, 주방, 거실 등 다양한 가정 환경(Home 53.9%)이 포함되어 실생활 로봇 적용 가능성을 시사한다.
데이터셋의 작업 키워드 클라우드 및 장면 카테고리 분포

키워드 발견부터 데이터 정제, 그리고 3D 포즈 감지 및 LLM 캡셔닝으로 이어지는 3단계 파이프라인을 상세히 설명한다. 비정형 데이터를 로봇 학습용 데이터로 변환하는 핵심 기술 공정을 보여준다.
HumanNet 데이터 수집 및 처리 파이프라인
주요 결과
LingBot-VLA 아키텍처를 활용한 실험에서 HumanNet의 1,000시간 에고센트릭 비디오로 학습한 모델은 Magic Cobot의 실제 로봇 데이터 100시간으로 학습한 모델과 대등하거나 일부 작업군에서 더 낮은 검증 손실(Validation Loss)을 기록했다.
특히 Short-Horizon 및 Long-Horizon 작업 모두에서 일반적인 웹 스케일 데이터(Qwen VLM)만 사용했을 때보다 성능이 크게 향상되었으며, 이는 인간 비디오가 로봇의 행동 제어에 필요한 액션 중심적 시각 표현을 효과적으로 제공함을 의미한다. 20,000시간의 실제 로봇 데이터로 학습된 모델과의 성능 격차도 상당 부분 좁히는 데 성공했다.
관련 Figure

HumanNet 1,000시간(ego1000h)으로 학습한 모델이 실제 로봇 데이터 100시간(cobot100h) 학습 모델과 유사하거나 더 낮은 손실 값을 보여주며, 인간 비디오의 효용성을 실험적으로 증명한다.
다양한 학습 소스에 따른 VLA 모델의 검증 손실 비교 그래프
기술 상세
HumanNet은 96.7만 시간의 비디오, 15만 개 이상의 객체 종류, 72만 개 이상의 작업 카테고리를 포함하는 방대한 규모를 자랑한다. 데이터셋은 다축 타겟 분류 체계(Multi-axis Taxonomy)를 통해 소스 유형, 시점, 환경, 상호작용 스타일별로 체계적으로 관리된다.
기술적으로 핵심은 Retargeting 오차를 15mm 이하로 유지하고 유효 프레임 커버리지를 60% 이상 확보한 '로봇 준비 완료(Robot-ready)' 서브셋을 추출하는 과정에 있다. 이를 위해 Monocular SLAM으로 카메라 궤적을 추정하고 인간의 동작을 통합 휴머노이드 스켈레톤에 정렬시킨다.
학습 시에는 Masked Video Modeling이나 Action-conditioned Forward Dynamics 예측과 같은 멀티모달 목적 함수를 지원할 수 있도록 메타데이터가 설계되어 있어, 단순한 비디오 분류를 넘어 물리적 실행이 가능한 행동 생성 모델 구축에 최적화되어 있다.
한계점
인간의 행동이 로봇의 하드웨어적 제약이나 동작 방식과 완전히 일치하지 않는 'Embodiment Gap'이 존재하며, 대규모 데이터 수집 과정에서 발생하는 레이블 노이즈와 시점 불균형 문제가 여전히 남아 있다.
실무 활용
로봇 학습을 위한 고비용의 텔레오퍼레이션 데이터 수집을 대체하거나 보완하는 용도로 즉시 활용 가능하다.
- 로봇 조작(Manipulation) 모델의 사전 학습을 위한 대규모 비디오 데이터셋 활용
- 인간의 행동을 관찰하여 로봇의 동작으로 변환하는 Human-to-Robot Transfer 연구
- 물리적 환경 이해를 위한 World Model 및 VLA 모델 개발
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.