핵심 요약
Rhoda AI는 비디오 생성을 로봇 제어의 핵심으로 정의하여 데이터 부족 문제를 해결하려 하며, Sharpa는 강화학습과 모방학습을 결합한 계층적 구조로 정교한 조작을 구현했다. 두 기업 모두 단순한 언어-행동 연결을 넘어 물리적 세계의 인과관계를 모델링하는 데 집중하고 있다.
배경
최근 로보틱스 분야에서 기존 VLA 모델의 데이터 스케일링 한계를 극복하려는 시도가 이어지는 가운데, 대규모 투자를 유치한 Rhoda AI와 NVIDIA GTC에서 주목받은 Sharpa의 신기술이 공개되었다.
대상 독자
로보틱스 AI 연구자, 로봇 제어 엔지니어, 최신 AI 아키텍처 트렌드에 관심 있는 개발자
의미 / 영향
Rhoda AI의 DVA 방식은 로봇 전용 데이터 없이도 웹 비디오 스케일로 로봇 지능을 확장할 수 있는 길을 열어 로봇의 범용성을 비약적으로 높일 것이다. Sharpa의 MoDE-VLA는 복잡한 수작업을 자동화하는 구체적인 계층적 아키텍처를 제시함으로써, 향후 제조 및 서비스 산업 현장에서 로봇의 실질적인 활용도를 높이는 데 기여할 것으로 보인다.
챕터별 상세
Rhoda AI의 등장과 비디오 액션 모델의 필요성
- •기존 VLA 모델의 데이터 스케일링 한계를 지적하며 등장
- •시리즈 A에서 4억 5천만 달러 투자 유치 및 17억 달러 가치 인정
- •웹 스케일 비디오 데이터를 로봇 지능의 핵심 소스로 정의
Direct Video Action (DVA) 아키텍처 분석
- •300년 분량의 웹 비디오 데이터로 물리적 인과관계 사전 학습
- •Causal Video Model과 Inverse Dynamics Model의 결합 구조
- •로봇 전용 데이터 요구량을 10~20시간 수준으로 획기적으로 단축
Causal Video Model은 LLM이 다음 토큰을 예측하듯 다음 비디오 프레임을 예측하는 모델이다.
DVA의 실시간 추론 및 인퍼런스 메커니즘
- •비디오 예측과 액션 변환을 실시간 폐쇄 루프로 구현
- •이전 프레임 정보를 유지하는 효율적인 캐싱 메커니즘 적용
- •비디오 생성 모델의 느린 추론 속도를 엔지니어링으로 극복
Closed-loop 제어는 센서 피드백을 통해 실시간으로 오차를 수정하며 목표를 달성하는 방식이다.
Rhoda AI의 주요 데모: 장기 기억과 인컨텍스트 러닝
- •야바위 데모를 통해 뛰어난 장기 시각적 기억력 입증
- •사람의 시연을 즉시 따라 하는 로봇용 퓨샷(Few-shot) 학습 구현
- •언어 명령 없이 시각적 예시만으로 복잡한 태스크 수행 가능
인컨텍스트 러닝은 별도의 추가 학습 없이 입력된 예시만으로 새로운 작업을 수행하는 능력이다.
Sharpa의 사과 깎기 데모와 MoDE-VLA
- •사과 깎기 데모를 통해 극도로 정교한 손 조작 능력 시연
- •촉각 및 힘 피드백 데이터를 통합한 MoDE-VLA 아키텍처 적용
- •NVIDIA GTC 부스에서 실시간 라이브 데모 운영
Dexterous Manipulation은 사람의 손처럼 정교하고 유연하게 물체를 다루는 조작 기술을 의미한다.
MoDE-VLA의 핵심: IMCopilot과 강화학습의 결합
- •정교한 조작을 위해 강화학습 기반의 IMCopilot 폴리시 구축
- •Isaac Lab 시뮬레이션을 활용한 안정적인 파지 및 회전 학습
- •모방학습(VLA)과 강화학습(IMCopilot)의 장점을 결합
PPO(Proximal Policy Optimization)는 강화학습에서 안정적인 성능을 보여주는 대표적인 알고리즘이다.
VLA와 IMCopilot의 계층적 의사결정 구조
- •VLA가 전체 전략을 짜고 IMCopilot이 세부 조작을 실행하는 계층 구조
- •특정 스킬(예: 사과 돌리기) 활성화 시 제어권 전환 메커니즘 작동
- •촉각 센서 데이터를 실시간으로 활용하여 조작 안정성 확보
계층적 구조는 복잡한 문제를 상위의 전략적 결정과 하위의 구체적 실행으로 나누어 해결하는 방식이다.
데이터 수집 효율성과 실험 결과 분석
- •IMCopilot 도입으로 데이터 수집 성공률을 34%에서 89%로 향상
- •촉각 피드백이 없는 기존 모델 대비 압도적인 태스크 수행 능력 확인
- •복잡한 수작업 자동화를 위한 실질적인 아키텍처 가이드라인 제시
Teleoperation은 사람이 장치를 이용해 원격으로 로봇을 직접 조종하는 방식이다.
실무 Takeaway
- 로봇 제어에서 VLA의 데이터 부족 문제를 해결하기 위해 대규모 웹 비디오 데이터를 활용한 비디오 생성 모델(DVA)이 강력한 대안으로 부상했다.
- 정교한 손 조작(In-hand Manipulation)은 모방학습만으로는 한계가 있으며, 강화학습으로 마스터한 세부 스킬을 계층적으로 결합하는 아키텍처가 필수적이다.
- 촉각 센서와 힘 피드백 데이터를 모델의 토큰으로 통합하고 MoE 구조를 활용하는 방식이 물리적 상호작용의 정확도를 획기적으로 높인다.
- 로봇 학습 데이터 수집 시 강화학습 기반의 보조 폴리시(IMCopilot)를 활용하면 데이터 수집 성공률과 효율을 대폭 개선할 수 있다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.