엥지유니버스Robotics조회 1회

RD-VLA: 필요할 때만 더 깊게 생각하는 로봇 AI 아키텍처 분석

로봇이 텍스트 토큰 생성 없이 잠재 공간에서 반복 연산을 통해 행동을 정제하고 작업 난이도에 따라 연산량을 스스로 조절하는 RD-VLA 모델을 상세히 분석합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

RD-VLA는 텍스트 토큰 없이 잠재 공간에서 반복 연산을 수행하며, 작업의 복잡도에 따라 연산 깊이를 스스로 조절하여 효율성과 정확도를 동시에 확보했다.

배경

기존 VLA 모델들이 텍스트 기반의 생각의 사슬(CoT)을 생성하며 발생하는 메모리 부족 및 추론 속도 저하 문제를 해결하기 위한 새로운 아키텍처가 제안되었다.

대상 독자

로봇 AI, VLA 모델, Physical AI 구현에 관심 있는 개발자 및 연구자

의미 / 영향

RD-VLA는 저사양 하드웨어에서도 고성능 로봇 제어가 가능함을 시사한다. 이는 엣지 디바이스 기반의 실시간 Physical AI 상용화를 가속화할 것이며, 향후 다양한 로봇 폼팩터에 범용적으로 적용될 수 있는 효율적인 아키텍처 표준을 제시한다.

챕터별 상세

02:22

기존 VLA의 한계와 패러다임 시프트

기존의 CoT 기반 VLA 모델들은 추론 과정을 텍스트로 생성하기 때문에 말이 길어질수록 메모리 사용량이 선형적으로 증가하고 실시간 제어에 부적합한 속도 문제를 가졌다. RD-VLA는 이러한 명시적 텍스트 생성 대신 모델 내부의 잠재 공간(Latent Space)에서 행동을 반복적으로 정제(Refinement)하는 방식을 채택했다. 이 방식은 연속적인 물리 데이터를 이산적인 단어로 번역하며 발생하는 정보 손실을 방지한다. 결과적으로 0.5B 규모의 가벼운 모델로도 7B 규모의 대형 모델보다 우수한 성능을 내며 추론 속도를 최대 80배까지 향상시켰다.

•텍스트 기반 CoT의 메모리 폭발 및 추론 지연 문제 해결
•잠재 공간 내 반복 정제를 통한 정보 손실 최소화
•0.5B 모델로 7B 모델을 상회하는 효율성 달성

08:00

아키텍처 해부: Prelude, Recurrent Core, Coda

RD-VLA 아키텍처는 크게 세 단계의 모듈로 구성된다. Prelude 단계에서는 입력 이미지와 텍스트 명령을 받아 VLM의 중간 레이어 특징을 추출하고, 반복 추론의 기준이 될 정적인 맥락 정보(S_pre)를 생성한다. 핵심인 Recurrent Core는 가중치를 공유하는 동일한 블록을 K번 반복 실행하며, 노이즈가 섞인 초기 잠재 상태를 점진적으로 정교한 행동 계획으로 다듬는다. 마지막 Coda 단계는 수렴된 잠재 상태를 최종적인 로봇 제어 명령(Action)으로 변환하여 출력한다. 각 반복 단계마다 로봇의 현재 관절 각도나 속도 같은 고유 수용 감각(Proprioception) 정보를 다시 참조하여 현실 세계와의 정렬을 유지한다.

•Prelude-Recurrent Core-Coda로 이어지는 3단계 구조
•가중치 공유 블록을 통한 효율적인 반복 추론 구현
•매 단계 고유 수용 감각 정보를 참조하여 물리적 정확도 확보

python

def recurrent_step(sk, s_pre, vlm_features, proprioception):
    # sk: current latent state, s_pre: static foundation from Prelude
    # Concatenate current state with static foundation
    xk = RMSNorm(W_adapt @ torch.cat([sk, s_pre], dim=-1))
    
    # Update state through weight-tied recurrent block
    # Uses self-attention and cross-attention to VLM features and proprioception
    sk_next = RecurrentBlock(xk, vlm_features, proprioception)
    return sk_next

RD-VLA의 핵심인 Recurrent Core에서 잠재 상태를 반복적으로 업데이트하는 로직의 개념적 구현

20:58

학습 전략: TBPTT와 Randomized Recurrence

반복 구조를 안정적으로 학습시키기 위해 두 가지 핵심 전략을 사용했다. 첫째, Truncated Backpropagation Through Time(TBPTT)을 적용하여 수십 번의 반복 연산 중 최근 일정 구간에 대해서만 역전파를 수행함으로써 메모리 사용량을 최적화했다. 둘째, 학습 시 반복 횟수(K)를 고정하지 않고 무작위로 설정하는 Randomized Recurrence 전략을 도입했다. 이를 통해 모델은 특정 연산 깊이에 의존하지 않고, 어떤 단계에서든 잠재 상태를 더 나은 방향으로 정제하는 범용적인 능력을 학습하게 되었다. 이는 추론 시 작업 난이도에 따라 연산량을 자유롭게 조절할 수 있는 기반이 된다.

•TBPTT 적용으로 반복 구조 학습 시 메모리 효율성 확보
•Randomized Recurrence를 통한 연산 깊이 일반화 능력 획득
•어떤 반복 횟수에서도 안정적으로 수렴하는 모델 학습

24:53

추론의 자율성: Adaptive Compute & Execution

RD-VLA는 추론 시 작업의 난이도를 스스로 판단하여 연산량을 조절하는 적응형 연산(Adaptive Compute) 메커니즘을 갖췄다. 모델 내부 잠재 상태의 변화량이 임계값 이하로 떨어지면 충분히 생각했다고 판단하여 연산을 종료한다. 단순한 이동 작업에서는 7~9회 정도의 적은 반복으로 빠르게 반응하고, 정밀한 조작이 필요한 순간에는 14회 이상 깊게 생각하여 정확도를 높인다. 또한 사고가 깊어질수록(불확실성이 높을수록) 한 번에 실행하는 액션의 길이를 짧게 설정하여 로봇이 상황을 더 자주 재확인하도록 제어한다.

•잠재 상태 수렴도를 기준으로 연산 종료 시점 결정
•작업 복잡도에 따라 반복 횟수를 7회에서 14회 이상으로 동적 조절
•불확실성에 따른 액션 호라이즌 조절로 안전성 강화

27:07

실험 결과 및 성능 분석

LIBERO 벤치마크 실험 결과, RD-VLA는 0.5B 파라미터 모델임에도 불구하고 14배 더 큰 7B 규모의 OpenVLA나 ThinkAct보다 높은 성공률을 기록했다. 특히 추론 지연 시간 측면에서 기존 CoT 모델들이 수천 밀리초(ms)를 소요할 때 RD-VLA는 수십 밀리초 내에 결과를 도출하며 80배 빠른 속도를 보였다. 실제 로봇을 이용한 수건 접기, 접시 닦기, 빵 굽기 등의 복잡한 작업에서도 기존 모델들을 압도하는 성능을 입증했다. 이는 잠재 공간에서의 반복 추론이 텍스트 기반 추론보다 로봇 제어에 훨씬 효율적임을 시사한다.

•0.5B 모델로 7B 모델 대비 우수한 벤치마크 성능 달성
•기존 CoT 모델 대비 최대 80배 빠른 추론 속도 기록
•실제 로봇 환경의 정밀 조작 작업에서 높은 완수 능력 확인

실무 Takeaway

텍스트 기반 CoT 대신 잠재 공간에서의 반복 정제 방식을 사용하면 추론 속도를 80배 이상 높이면서도 높은 성능을 유지할 수 있다.
동일한 파라미터를 공유하는 Recurrent Core 구조를 활용하면 모델 크기를 1/14 수준으로 줄이면서도 대형 모델급의 지능 구현이 가능하다.
작업 난이도에 따라 연산 횟수(K)를 동적으로 조절하는 Adaptive Compute 기술을 통해 실시간성과 정확도의 균형을 맞출 수 있다.

언급된 리소스

DemoRD-VLA Project Page

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 28.수집 2026. 03. 01.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

RD-VLA: 필요할 때만 더 깊게 생각하는 로봇 AI 아키텍처 분석 | AI Trends