𝚿0: 범용 휴머노이드 보행-조작을 위한 오픈 파운데이션 모델 | AI Trends

Stanford OnlineRobotics

𝚿0: 범용 휴머노이드 보행-조작을 위한 오픈 파운데이션 모델

1인칭 인간 행동 데이터와 다단계 학습 프레임워크를 통해 휴머노이드 로봇의 보행과 정교한 조작을 통합 제어하는 오픈 파운데이션 모델 𝚿0를 제안한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

𝚿0는 대규모 1인칭 인간 데이터를 사전 학습에 활용하고, MM-DiT 아키텍처와 실시간 제어 기술을 결합하여 기존 모델 대비 적은 데이터로도 뛰어난 휴머노이드 제어 성능을 달성했다.

배경

최근 로보틱스 하드웨어와 알고리즘이 급격히 발전했으나, 휴머노이드 로봇이 실생활에서 보행과 조작을 동시에 수행하는 지능을 갖추는 것은 여전히 어려운 과제이다.

대상 독자

로보틱스 연구자, AI 모델 개발자, 자율 주행 및 제어 시스템 엔지니어

의미 / 영향

𝚿0는 휴머노이드 로봇이 단순 보행을 넘어 실생활의 복잡한 조작 작업을 수행할 수 있는 기술적 토대를 마련했다. 특히 대규모 1인칭 인간 데이터를 활용하는 방식은 고가의 로봇 데이터 수집 한계를 극복할 수 있는 대안을 제시한다. 오픈 소스 모델과 데이터셋, 그리고 원격 평가 플랫폼의 제공은 범용 로봇 지능(Generalist Robot Intelligence) 연구를 가속화하고 산업 현장 도입 시기를 앞당길 것으로 기대된다.

챕터별 상세

00:21

로보틱스의 발전과 휴머노이드의 한계

최근 Waymo의 자율주행과 Unitree G1 같은 하드웨어의 발전으로 로보틱스 분야가 급성장했다. 하지만 휴머노이드 로봇은 여전히 공장이나 가정 같은 실제 환경에서 유용한 작업을 수행하기에는 부족하다. 보행(Locomotion)은 시뮬레이션으로 상당 부분 해결되었으나, 정교한 조작(Manipulation)과 지능(Intelligence)을 결합하는 것은 매우 어렵다. 특히 보행과 조작을 동시에 수행하는 Loco-Manipulation은 로봇 지능의 핵심 과제이다.

07:11

데이터 피라미드와 1인칭 데이터의 중요성

로봇 학습을 위한 데이터는 인터넷 데이터, 합성 데이터, 실제 로봇 데이터로 나뉜다. 인터넷 데이터는 양은 많지만 시점 차이와 노이즈가 심하고, 합성 데이터는 물리적 정확도가 떨어진다. 실제 로봇 원격 조작 데이터는 품질이 높지만 수집 비용이 매우 비싸다. 이를 해결하기 위해 Apple Vision Pro나 자체 제작한 4개 카메라 헤드셋을 이용해 1인칭 인간 행동 데이터를 수집했다. 이 데이터는 로봇 시점과 일치하며 인간의 손 동작을 직접 추적할 수 있어 학습 효율이 매우 높다.

25:45

𝚿0 모델 아키텍처와 다단계 학습 전략

𝚿0 모델은 두 단계로 학습된다. 첫 번째 단계에서는 Qwen-VL 기반의 VLM을 800시간 이상의 1인칭 인간 영상으로 사전 학습하여 이산화된 액션 토큰을 예측하게 한다. 두 번째 단계에서는 30시간의 실제 로봇 원격 조작 데이터를 사용하여 액션 전문가(Action Expert)를 사후 학습시킨다. 이때 MM-DiT(Multi-Modal Diffusion Transformer) 헤드를 사용하여 시각 언어 특징과 액션 특징을 초기부터 강력하게 결합했다. 결과적으로 𝚿0는 NVIDIA의 GR00T N1.6보다 10%의 사전 학습 데이터만 사용하고도 40% 더 높은 성능을 보였다.

MM-DiT는 기존의 Cross-attention 방식 대신 Joint-attention을 사용하여 서로 다른 모달리티 간의 정보 교환 효율을 높인 구조이다.

28:10

실시간 제어를 위한 RTC(Real-Time Chunking) 기술

VLA 모델을 실제 로봇에 배포할 때 가장 큰 문제는 추론 지연으로 인한 동작 끊김과 지터링(Jittering)이다. 이를 해결하기 위해 RTC(Real-Time Chunking) 기술을 도입했다. RTC는 모델이 예측한 액션 시퀀스(Chunk)를 실행하는 동안 다음 시퀀스를 미리 추론하고, 현재 실행 중인 동작과 부드럽게 연결되도록 보간한다. 이 시스템을 통해 30Hz의 고주파수 제어를 달성했으며, 로봇이 멈춤 없이 연속적이고 매끄러운 동작을 수행할 수 있게 되었다.

40:31

Humanoid Everyday 데이터셋과 벤치마크

연구팀은 260개 이상의 다양한 일상 작업을 포함하는 Humanoid Everyday 데이터셋을 공개했다. 이 데이터셋은 10,300개 이상의 궤적과 300만 프레임 이상의 데이터를 포함하며, Unitree G1과 H1 로봇을 사용해 수집되었다. 벤치마크 결과, 𝚿0는 물체 집기, 옮기기, 문 열기 등 복잡한 Loco-Manipulation 작업에서 기존 모델들을 압도했다. 또한 클라우드 기반의 평가 플랫폼을 구축하여 연구자들이 하드웨어 없이도 자신의 정책을 원격으로 평가할 수 있게 지원한다.

실무 Takeaway

1인칭 인간 행동 데이터를 활용하면 로봇의 시점과 행동 공간을 자연스럽게 정렬하여 학습 효율을 극대화할 수 있다.
VLM 사전 학습과 액션 전문가 사후 학습을 분리하는 다단계 전략이 이종 데이터 소스의 유용성을 극대화하는 데 효과적이다.
MM-DiT 헤드를 적용하여 시각 언어 특징과 액션 특징을 초기 단계부터 결합하는 것이 복잡한 로봇 제어 성능 향상의 핵심이다.
RTC(Real-Time Chunking) 기술을 통해 VLA 모델의 고질적인 문제인 추론 지연과 동작 지터링을 실무적으로 해결 가능하다.

언급된 리소스

Demo𝚿0 Project Page

GitHubHumanoid Everyday Dataset

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 03. 04.수집 2026. 03. 04.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.