RLDX-1 기술 보고서

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

기존 로봇 AI 모델들이 단순한 사물 인식과 이동에 그쳤다면, RLDX-1은 움직이는 물체를 잡거나 계란을 깨뜨리지 않고 옮기는 등 인간 수준의 정교한 손동작을 구현했다. 시각 정보뿐만 아니라 촉각과 힘의 변화를 실시간으로 감지하여 복잡한 환경에서도 안정적인 작업이 가능하다는 점이 가장 큰 특징이다.

왜 중요한가

핵심 기여

MSAT 아키텍처 도입

시각, 언어, 물리적 신호(토크, 촉각) 등 서로 다른 모달리티를 전용 스트림으로 처리하고 통합 셀프 어텐션으로 결합하는 Multi-Stream Action Transformer를 제안하여 복잡한 조작 성능을 극대화했다.

3단계 학습 파이프라인 구축

인터넷 규모의 대규모 사전 학습(Pre-training), 로봇 본체 특화 중간 학습(Mid-training), 특정 작업 적응 사후 학습(Post-training)으로 이어지는 체계적인 학습 전략을 통해 범용성과 전문성을 동시에 확보했다.

고품질 합성 데이터 생성 및 필터링

비디오 생성 모델을 활용해 희귀한 조작 시나리오 데이터를 증강하고, 물리적 일관성 필터링(Motion-Consistency Filtering)을 통해 학습 데이터의 신뢰도를 높였다.

실시간 제어 최적화

정적 그래프 변환 및 커널 최적화를 통해 RTX 5090 GPU 기준 22Hz 이상의 추론 속도를 달성하여 실제 로봇 환경에서 지연 없는 실시간 제어를 가능하게 했다.

핵심 아이디어 이해하기

로봇이 인간처럼 정교하게 물체를 다루기 위해서는 단순히 눈으로 보는 것(Vision)을 넘어, 물체의 움직임을 예측하고(Motion Awareness) 과거의 경험을 기억하며(Long-term Memory) 손끝에 느껴지는 힘(Physical Sensing)을 이해해야 한다. 기존의 Transformer 기반 모델들은 이러한 다양한 정보를 하나의 시퀀스로 묶어 처리하려다 보니 각 정보의 고유한 특성이 희석되거나 연산 효율이 떨어지는 문제가 있었다.

RLDX-1은 이를 해결하기 위해 '멀티 스트림' 구조를 채택했다. 각 정보(시각, 언어, 물리 신호)가 독립적인 통로(Stream)를 통해 흐르면서도, 중간중간 '교차 모달 어텐션'을 통해 서로 정보를 교환하게 만든 것이다. 이는 마치 사람이 눈으로 물체를 보면서 동시에 손가락의 감각에 집중하여 힘 조절을 하는 것과 유사한 원리이다.

결과적으로 RLDX-1은 움직이는 컨베이어 벨트 위의 물체를 정확히 낚아채거나, 컵 속에 숨겨진 공의 위치를 기억해 찾아내는 등 고도의 지능과 감각이 필요한 작업에서 기존 SOTA 모델인 π0.5나 GR00T N1.6 대비 압도적인 성공률을 보여준다. 특히 휴머노이드 로봇 ALLEX에서 86.8%의 성공률을 기록하며 실전 배치 가능성을 입증했다.

방법론

RLDX-1의 핵심은 MSAT(Multi-Stream Action Transformer) 아키텍처이다. 이 구조는 입력된 각 모달리티에 전용 스트림을 할당한다. 시각 정보는 비전 인코더를 거쳐 비디오 토큰으로 변환되고, 물리 신호(토크, 촉각)는 별도의 물리 스트림으로 입력된다. [각 모달리티 토큰 입력 → 전용 스트림 처리 → 교차 모달 셀프 어텐션 연산 → 통합된 행동 토큰 출력] 순으로 계산이 이루어지며, 이를 통해 각 감각 정보의 독립성을 유지하면서도 행동 결정에 필요한 통합적 판단을 내린다.

행동 생성에는 Flow-Matching 기반의 확산 모델을 사용한다. 현재 상태 st와 인지 특징 ht를 입력으로 받아 미래의 행동 궤적 at:t+H를 생성한다. [노이즈가 섞인 행동 궤적 입력 → 신경망 벡터 필드 uθ 연산 → 노이즈 제거 속도 예측 → 깨끗한 행동 궤적 복원] 과정을 거쳐 부드러운 로봇 움직임을 만들어낸다. 또한, 물리 신호 스트림에서는 미래의 감각 신호 pt+1:t+L를 함께 예측하도록 학습하여 모델이 물리적 상호작용의 역학을 내재화하도록 유도한다.

주요 결과

시뮬레이션 벤치마크인 LIBERO에서 97.8%의 평균 성공률을 기록하며 기존 모델들을 능가했다. 특히 난이도가 높은 RoboCasa365의 복합 작업(Composite tasks)에서 기존 모델들이 12.6% 이하의 성적을 거둘 때, RLDX-1은 19.0%를 달성하며 복잡한 장기 작업 수행 능력을 증명했다.

실제 로봇 실험에서도 뛰어난 성과를 보였다. ALLEX 휴머노이드 로봇을 이용한 '컨베이어 벨트 물체 집기' 작업에서 87.5%의 성공률을 기록했으며, 이는 움직임 인지(Motion Awareness) 모듈이 없는 모델들이 30% 미만의 성공률을 보인 것과 대조적이다. 또한 촉각 센서를 활용한 '카드 슬라이드 및 집기' 작업에서는 97.2%의 높은 점수를 획득하여 정밀한 힘 제어 능력을 입증했다.

기술 상세

RLDX-1의 VLM 백본은 Qwen3-VL 8B를 기반으로 하며, 로봇 특화 VQA 데이터셋으로 파인튜닝되어 공간 추론 능력이 강화되었다. 시각 정보 처리를 위해 9번째 비전 인코더 레이어 이후에 STSS(Space-Time Self-Similarity) 모듈을 통합하여 동적 환경 대응력을 높였다. 또한, 과거의 인지 토큰을 큐(Queue) 형태로 유지하는 명시적 메모리 모듈을 도입하여 장기적인 작업 문맥을 유지한다.

추론 최적화 측면에서는 PyTorch의 Eager 모드에서 발생하는 커널 런치 오버헤드를 줄이기 위해 전체 포워드 패스를 단일 CUDA Graph로 캡처하는 정적 그래프 변환 기술을 적용했다. 특히 RMSNorm, RoPE, Attention 연산을 하나로 묶은 커스텀 융합 커널(Fused Kernel)을 설계하여 메모리 대역폭 병목을 해소하고 추론 속도를 1.63배 향상시켰다.

한계점

본 보고서에서는 특정 작업(예: Pot-to-Cup Pouring)에서 시각적 정보만으로는 액체의 무게 변화를 완벽히 감지하기 어려워 물리 신호에 크게 의존해야 한다는 점을 언급하며, 센서 데이터가 부족한 환경에서의 성능 저하 가능성을 시사했다.

실무 활용

RLDX-1은 실제 산업 현장과 가정용 서비스 로봇에 즉시 적용 가능한 수준의 정교한 조작 능력을 갖추고 있으며, 실시간 제어를 위한 최적화 기술이 포함되어 있다.

컨베이어 벨트 기반의 동적 물류 분류 및 피킹 시스템
가정 내 주방 도구 조작 및 요리 보조 서비스 로봇
전자 부품 조립 등 정밀한 힘 조절이 필요한 제조 공정
휴머노이드 로봇을 활용한 복잡한 가사 노동 자동화

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLA(시각-언어-행동 모델)MSAT(멀티 스트림 액션 트랜스포머)Dexterous Manipulation(정교한 조작)Humanoid Robot(휴머노이드 로봇)Real-time Control(실시간 제어)