딥러닝논문읽기모임Robotics

RDT-1B: 양손 조작을 위한 확산 파운데이션 모델

RDT-1B는 대규모 로봇 데이터를 학습하여 양손 조작 작업에서 뛰어난 일반화 성능을 보이는 확산 기반 파운데이션 모델이다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

RDT-1B는 다양한 로봇 데이터를 통합 학습하여 보지 못한 환경에서도 양손 조작을 수행할 수 있는 일반화 능력을 확보했다. 물리적으로 해석 가능한 공통 액션 공간을 통해 데이터 전이 학습을 가능하게 했다.

배경

양손 로봇 조작은 두 팔의 동시 움직임으로 인해 행동 분포가 복잡하고 성공 데이터가 부족하여 학습이 어렵다.

대상 독자

로봇 공학 연구자, imitation learning 및 diffusion policy 관심자

의미 / 영향

RDT-1B는 로봇 조작 모델이 태스크별 개별 학습에서 대규모 파운데이션 모델로 전환될 수 있음을 보여준다. 이는 다양한 로봇 플랫폼에서 범용적인 조작 지능을 구현하는 데 중요한 기준점이 된다.

챕터별 상세

00:00

RDT-1B 개요: 양손 조작을 위한 확산 모델

RDT-1B는 1.2B 파라미터 규모의 확산 기반 로봇 조작 파운데이션 모델이다. 양팔 로봇이 물체를 잡고 옮기는 복잡한 작업을 하나의 대형 확산 트랜스포머 모델로 학습한다. 기존 모델의 특정 로봇 및 태스크 의존성을 극복하는 것이 목표이다.

00:20

로봇 조작의 난제와 확산 모델의 접근

양손 조작은 두 팔의 동시 움직임으로 인해 가능한 행동 분포가 복잡하고 데이터가 부족하다. RDT는 이를 확산 모델로 해결한다. 이미지, 언어 명령, 로봇 상태를 조건으로 입력받아 denoising 방식으로 다음 로봇 액션 시퀀스를 생성한다.

01:14

RDT-1B의 아키텍처와 핵심 기여

핵심은 Robotics Diffusion Transformer와 Physically Interpretable Unified Action Space이다. 서로 다른 로봇의 액션 표현을 물리적으로 해석 가능한 공통 공간으로 정규화하여 데이터 전이 학습을 가능하게 했다. 46개 데이터셋과 100만 개 이상의 에피소드로 사전학습되었다.

03:27

기존 정책 모델의 한계와 확산 정책의 장점

Explicit 정책은 회귀를 통해 행위를 생성하여 분포가 한쪽으로 쏠리는 단점이 있다. Implicit 정책은 멀티모달 분포를 만들 수 있으나 추론 비용이 높다. 확산 정책은 노이즈를 통해 행위를 복원하여 멀티모달 분포를 다룰 수 있고 추론 속도가 빠르다.

06:06

관련 연구: 양손 조작과 로봇 파운데이션 모델

양손 조작은 액션 공간의 차원이 높아 데이터 부족 문제가 심각하다. 기존 연구들은 하드웨어 의존적이거나 데이터 효율성이 낮았다. RDT-1B는 대규모 데이터와 확산 모델을 결합하여 이러한 한계를 극복하고자 한다.

09:51

문제 정의: ALOHA 로봇과 데이터셋 구성

ALOHA 양팔 로봇을 평가 플랫폼으로 사용한다. 언어 지시와 관측 데이터를 입력받아 액션을 예측하는 구조이다. 데이터 부족 문제를 해결하기 위해 멀티 로봇 데이터셋을 사전학습에 활용하고 ALOHA 로봇으로 파인튜닝한다.

12:29

로봇 파운데이션 모델의 도전 과제

아키텍처 설계 시 멀티모달 분포를 다루는 표현력과 다양한 데이터셋에서의 확장성이 중요하다. 또한 서로 다른 로봇의 물리적 구조 차이를 극복하기 위해 Unified Action Space가 필요하다. 이를 통해 전이 가능한 물리적 지식을 학습한다.

14:41

학습 데이터셋과 파인튜닝 전략

21TB 규모의 100만 개 이상 에피소드로 사전학습을 진행했다. ALOHA 로봇에서 6,000개 이상의 에피소드로 파인튜닝하여 일반화 성능을 확보했다. 데이터셋은 다양한 물체와 조명 환경을 포함하여 강건성을 높였다.

16:46

아키텍처 상세: 임베딩과 토큰 처리

멀티모달 입력을 Unified Latent Space로 투영한다. 저차원 입력은 MLP와 Fourier feature를 사용하고, 이미지는 SigLIP 인코더를 활용한다. 언어는 T5 인코더를 사용하며, 각 모달리티를 정렬하여 트랜스포머 블록에 입력한다.

22:06

아키텍처 상세: QKNorm과 RMSNorm

로봇 상태와 액션은 불안정한 경향이 있어 그래디언트 폭주를 방지해야 한다. QKNorm과 RMSNorm을 적용하여 어텐션과 그래디언트의 안정성을 확보했다. 이를 통해 학습 과정에서 손실 함수가 발산하는 문제를 해결했다.

24:05

훈련 상세: Unified Action Space와 손실 함수

Action Chunking을 통해 긴 시간의 액션을 예측하여 지연 시간을 줄인다. MLP 디코더를 사용하여 비선형성을 확보하고, Alternative Injection을 통해 멀티모달 입력 간의 불균형을 해소한다. 드롭아웃을 적용하여 학습 안정성을 높였다.

27:33

실험 결과: 모델 크기 및 일반화 성능

모델 크기를 줄이거나 사전학습을 생략할 경우 성능이 크게 저하된다. 확산 모델 기반의 RDT가 회귀 기반 모델보다 우수한 성능을 보인다. 사전학습된 데이터가 일반화 성능 확보에 필수적임을 확인했다.

29:00

실험 결과: Zero-shot 및 Few-shot 성능

보지 못한 물체와 장면에 대한 Zero-shot 일반화 성능이 우수하다. Few-shot 학습에서도 기존 모델 대비 높은 성공률을 기록했다. 특히 복잡한 양손 조작 태스크에서 뛰어난 성능을 보이며 파운데이션 모델로서의 가능성을 입증했다.

언급된 리소스

논문RDT-1B: A Diffusion Foundation Model for Bimanual Manipulation

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 05. 30.수집 2026. 05. 30.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.