sudoremoveRobotics조회 2회

로봇 AI의 새로운 패러다임: Rhoda AI의 DVA와 Sharpa의 MoDE-VLA 기술 분석

로보틱스 스타트업 Rhoda AI의 비디오 생성 기반 제어 모델 DVA와 Sharpa의 MoE 기반 VLA 아키텍처를 통해 물리적 AI의 최신 기술 트렌드와 구현 방식을 분석한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Rhoda AI는 비디오 생성을 로봇 제어의 핵심으로 정의하여 데이터 부족 문제를 해결하려 하며, Sharpa는 강화학습과 모방학습을 결합한 계층적 구조로 정교한 조작을 구현했다. 두 기업 모두 단순한 언어-행동 연결을 넘어 물리적 세계의 인과관계를 모델링하는 데 집중하고 있다.

배경

최근 로보틱스 분야에서 기존 VLA 모델의 데이터 스케일링 한계를 극복하려는 시도가 이어지는 가운데, 대규모 투자를 유치한 Rhoda AI와 NVIDIA GTC에서 주목받은 Sharpa의 신기술이 공개되었다.

대상 독자

로보틱스 AI 연구자, 로봇 제어 엔지니어, 최신 AI 아키텍처 트렌드에 관심 있는 개발자

의미 / 영향

Rhoda AI의 DVA 방식은 로봇 전용 데이터 없이도 웹 비디오 스케일로 로봇 지능을 확장할 수 있는 길을 열어 로봇의 범용성을 비약적으로 높일 것이다. Sharpa의 MoDE-VLA는 복잡한 수작업을 자동화하는 구체적인 계층적 아키텍처를 제시함으로써, 향후 제조 및 서비스 산업 현장에서 로봇의 실질적인 활용도를 높이는 데 기여할 것으로 보인다.

챕터별 상세

00:00

Rhoda AI의 등장과 비디오 액션 모델의 필요성

로보틱스 스타트업 Rhoda AI가 시리즈 A에서 4억 5천만 달러의 투자를 유치하며 기업 가치 17억 달러를 인정받았다. 이들은 기존 VLA 모델이 물리적 세계의 복잡성을 학습하기에는 로봇 전용 데이터가 턱없이 부족하다는 점을 지적했다. 대신 웹상에 존재하는 방대한 비디오 데이터를 활용하여 물리적 법칙을 학습하는 '비디오 액션 모델'을 대안으로 제시했다.

•기존 VLA 모델의 데이터 스케일링 한계를 지적하며 등장
•시리즈 A에서 4억 5천만 달러 투자 유치 및 17억 달러 가치 인정
•웹 스케일 비디오 데이터를 로봇 지능의 핵심 소스로 정의

01:50

Direct Video Action (DVA) 아키텍처 분석

Rhoda AI의 핵심 기술인 Direct Video Action(DVA)은 비디오 생성을 통해 로봇을 제어한다. 300년 분량의 웹 비디오 데이터를 사전 학습하여 물리적 인과관계를 이해하며, 로봇 데이터는 단 10~20시간의 궤적 데이터만으로도 충분하다는 점을 강조했다. 아키텍처는 비디오 컨텍스트를 입력받아 다음 프레임을 예측하는 Causal Video Model과 예측된 비디오를 로봇 액션으로 변환하는 Inverse Dynamics Model로 구성된다.

•300년 분량의 웹 비디오 데이터로 물리적 인과관계 사전 학습
•Causal Video Model과 Inverse Dynamics Model의 결합 구조
•로봇 전용 데이터 요구량을 10~20시간 수준으로 획기적으로 단축

Causal Video Model은 LLM이 다음 토큰을 예측하듯 다음 비디오 프레임을 예측하는 모델이다.

03:20

DVA의 실시간 추론 및 인퍼런스 메커니즘

비디오 생성은 일반적으로 연산량이 많아 실시간 제어에 부적합하다고 여겨졌으나, Rhoda AI는 이를 해결하기 위한 인퍼런스 파이프라인을 구축했다. 비디오 모델이 미래 프레임을 예측하면 역역학 모델이 이를 즉시 액션으로 변환하며, 이 과정이 폐쇄 루프(Closed-loop) 형태로 초당 여러 번 반복된다. 특히 KV 캐시와 유사한 메커니즘을 활용하여 이전 프레임의 정보를 효율적으로 유지하며 연속적인 행동을 생성한다.

•비디오 예측과 액션 변환을 실시간 폐쇄 루프로 구현
•이전 프레임 정보를 유지하는 효율적인 캐싱 메커니즘 적용
•비디오 생성 모델의 느린 추론 속도를 엔지니어링으로 극복

Closed-loop 제어는 센서 피드백을 통해 실시간으로 오차를 수정하며 목표를 달성하는 방식이다.

06:30

Rhoda AI의 주요 데모: 장기 기억과 인컨텍스트 러닝

Rhoda AI는 '야바위(Shell Game)' 데모를 통해 모델의 장기 시각적 기억 능력을 증명했다. 컵 아래 숨겨진 물체의 위치를 끝까지 추적하여 찾아내는 모습은 모델이 과거 프레임의 정보를 정확히 유지하고 있음을 보여준다. 또한 사람이 물건을 분류하는 모습을 한 번 보여주면 로봇이 즉시 이를 따라 하는 '인컨텍스트 러닝(In-context Learning)' 기능을 시연하여 범용적인 학습 능력을 입증했다.

•야바위 데모를 통해 뛰어난 장기 시각적 기억력 입증
•사람의 시연을 즉시 따라 하는 로봇용 퓨샷(Few-shot) 학습 구현
•언어 명령 없이 시각적 예시만으로 복잡한 태스크 수행 가능

인컨텍스트 러닝은 별도의 추가 학습 없이 입력된 예시만으로 새로운 작업을 수행하는 능력이다.

11:00

Sharpa의 사과 깎기 데모와 MoDE-VLA

Sharpa는 NVIDIA GTC에서 사과를 깎는 정교한 로봇 데모를 선보였다. 사과를 집어 들고 필러를 이용해 껍질을 벗기는 과정은 매우 높은 정밀도를 요구하는데, 이를 위해 MoDE-VLA(Mixture-of-Dexterous-Experts VLA) 아키텍처를 사용했다. 이 모델은 범용적인 VLA 모델에 촉각 센서와 힘 피드백 데이터를 결합하여 물리적 상호작용의 정확도를 극대화했다.

•사과 깎기 데모를 통해 극도로 정교한 손 조작 능력 시연
•촉각 및 힘 피드백 데이터를 통합한 MoDE-VLA 아키텍처 적용
•NVIDIA GTC 부스에서 실시간 라이브 데모 운영

Dexterous Manipulation은 사람의 손처럼 정교하고 유연하게 물체를 다루는 조작 기술을 의미한다.

13:30

MoDE-VLA의 핵심: IMCopilot과 강화학습의 결합

Sharpa는 모방학습만으로는 해결하기 어려운 정교한 조작을 위해 IMCopilot(In-hand Manipulation Copilot)을 도입했다. IMCopilot은 Isaac Lab 시뮬레이션 환경에서 PPO 강화학습 알고리즘으로 학습된 전용 폴리시이다. 물체를 안정적으로 잡거나 축을 기준으로 회전시키는 등의 기본 동작(Primitive)을 강화학습으로 미리 마스터해두고, 이를 상위 VLA 모델이 필요할 때 호출하여 사용한다.

•정교한 조작을 위해 강화학습 기반의 IMCopilot 폴리시 구축
•Isaac Lab 시뮬레이션을 활용한 안정적인 파지 및 회전 학습
•모방학습(VLA)과 강화학습(IMCopilot)의 장점을 결합

PPO(Proximal Policy Optimization)는 강화학습에서 안정적인 성능을 보여주는 대표적인 알고리즘이다.

15:50

VLA와 IMCopilot의 계층적 의사결정 구조

MoDE-VLA는 계층적(Hierarchical) 의사결정 구조를 가진다. 상위 모델인 VLA가 전체적인 작업 흐름을 결정하며, 특정 시점에 정교한 조작이 필요하면 IMCopilot에게 제어권을 넘긴다. 예를 들어 사과를 깎는 도중 사과를 돌려야 할 때 VLA가 '사과 돌리기' 스킬을 활성화하면, 강화학습으로 학습된 IMCopilot이 실시간 촉각 피드백을 받으며 정교하게 사과를 회전시킨다.

•VLA가 전체 전략을 짜고 IMCopilot이 세부 조작을 실행하는 계층 구조
•특정 스킬(예: 사과 돌리기) 활성화 시 제어권 전환 메커니즘 작동
•촉각 센서 데이터를 실시간으로 활용하여 조작 안정성 확보

계층적 구조는 복잡한 문제를 상위의 전략적 결정과 하위의 구체적 실행으로 나누어 해결하는 방식이다.

18:40

데이터 수집 효율성과 실험 결과 분석

Sharpa는 IMCopilot을 활용하여 데이터 수집 효율을 획기적으로 높였다. 사람이 직접 원격 제어(Teleoperation)로 사과를 깎는 데이터를 모을 때는 성공률이 34%에 불과했으나, IMCopilot의 도움을 받았을 때는 성공률이 89%까지 상승했다. 결과적으로 MoDE-VLA는 기존 OpenPI-0 모델이 실패했던 사과 깎기 태스크에서 유의미한 성공률을 기록하며 촉각 피드백과 계층적 구조의 중요성을 증명했다.

•IMCopilot 도입으로 데이터 수집 성공률을 34%에서 89%로 향상
•촉각 피드백이 없는 기존 모델 대비 압도적인 태스크 수행 능력 확인
•복잡한 수작업 자동화를 위한 실질적인 아키텍처 가이드라인 제시

Teleoperation은 사람이 장치를 이용해 원격으로 로봇을 직접 조종하는 방식이다.

실무 Takeaway

로봇 제어에서 VLA의 데이터 부족 문제를 해결하기 위해 대규모 웹 비디오 데이터를 활용한 비디오 생성 모델(DVA)이 강력한 대안으로 부상했다.
정교한 손 조작(In-hand Manipulation)은 모방학습만으로는 한계가 있으며, 강화학습으로 마스터한 세부 스킬을 계층적으로 결합하는 아키텍처가 필수적이다.
촉각 센서와 힘 피드백 데이터를 모델의 토큰으로 통합하고 MoE 구조를 활용하는 방식이 물리적 상호작용의 정확도를 획기적으로 높인다.
로봇 학습 데이터 수집 시 강화학습 기반의 보조 폴리시(IMCopilot)를 활용하면 데이터 수집 성공률과 효율을 대폭 개선할 수 있다.

언급된 리소스

문서Rhoda AI 공식 홈페이지

문서Rhoda AI Direct Video Action 연구 블로그

논문Sharpa MoDE-VLA 논문 (arXiv)

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 03. 16.수집 2026. 03. 16.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

로봇 AI의 새로운 패러다임: Rhoda AI의 DVA와 Sharpa의 MoDE-VLA 기술 분석 | AI Trends