핵심 요약
대형 파운데이션 모델(Large Foundation Models)의 부상에 따라, 강력한 시각 및 언어 이해 능력을 활용하여 범용 정책 학습(General-purpose Policy Learning)을 수행하는 시각-언어-행동(Vision-Language-Action, VLA) 모델이 등장했습니다. 그러나 현재 VLA 연구 지형은 파편화되어 있으며 탐색적인 단계에 머물러 있습니다. 많은 연구 그룹이 각자의 VLA 모델을 제안하고 있지만, 학습 프로토콜과 평가 설정의 불일치로 인해 어떤 설계 선택이 실제로 중요한지 식별하기 어려운 실정입니다. 이러한 진화하는 분야에 구조를 부여하기 위해, 본 연구에서는 통합된 프레임워크와 평가 설정 아래 VLA 설계 공간(Design Space)을 재검토합니다. RT-2 및 OpenVLA와 유사한 단순한 VLA 베이스라인(Baseline)에서 시작하여, 기초 구성 요소(Foundational Components), 지각 필수 요소(Perception Essentials), 행동 모델링 관점(Action Modelling Perspectives)의 세 가지 차원을 따라 설계 선택지를 체계적으로 해부합니다. 이 연구를 통해 강력한 VLA 모델 구축을 위한 실질적인 레시피가 되는 12가지 핵심 발견을 도출했습니다. 이러한 탐색의 결과물로 단순하면서도 효과적인 모델인 VLANeXt를 개발했습니다. VLANeXt는 LIBERO 및 LIBERO-plus 벤치마크에서 기존의 최첨단(State-of-the-art) 방법들을 능가하며, 실제 환경 실험에서도 강력한 일반화(Generalization) 성능을 입증했습니다. 연구진은 커뮤니티가 발견 내용을 재현하고, 설계 공간을 탐색하며, 공유된 기반 위에 새로운 VLA 변형을 구축할 수 있도록 사용하기 쉬운 통합 코드베이스를 공개할 예정입니다.
핵심 기여
VLA 설계 공간의 체계적 분석 프레임워크 구축
파편화된 VLA 연구를 통합하기 위해 기초 요소, 지각, 행동 모델링의 세 가지 핵심 축을 중심으로 설계 변수를 분석하는 표준화된 환경을 조성했다.
성능 최적화를 위한 12가지 핵심 설계 원칙 도출
광범위한 실험을 통해 비전 인코더 선택부터 토큰화 전략까지 VLA 모델 성능을 결정짓는 12가지 구체적인 기술적 가이드라인을 정립했다.
차세대 VLA 모델 VLANeXt 개발
도출된 최적의 설계 레시피를 적용하여 기존 SOTA 모델인 OpenVLA를 뛰어넘는 성능과 높은 일반화 능력을 갖춘 모델을 구현했다.
오픈소스 기반의 통합 VLA 연구 코드베이스 제공
연구자들이 동일한 기반 위에서 실험을 재현하고 새로운 모델을 개발할 수 있도록 범용적이고 사용하기 쉬운 코드 플랫폼을 공개했다.
방법론
RT-2와 OpenVLA의 구조를 표준 베이스라인으로 설정하고, 기초 구성 요소(백본), 지각(입력 해상도 및 인코딩), 행동 모델링(출력 헤드 및 손실 함수)의 세 영역에서 변수를 통제하며 실험했다. 이를 통해 각 요소가 로봇 정책 학습의 성공률에 미치는 영향을 정량적으로 분석하여 VLANeXt의 최종 아키텍처를 결정했다.
주요 결과
LIBERO 및 LIBERO-plus 벤치마크에서 기존 모델 대비 높은 작업 성공률을 기록했으며, 특히 복잡한 조작 작업에서 우수한 성능을 보였다. 실제 로봇을 이용한 실험에서도 학습 시 보지 못한 물체와 환경에 대해 안정적인 제어 능력을 발휘하며 강력한 제로샷 일반화 성능을 입증했다.
시사점
VLA 모델 개발 시 불필요한 시행착오를 줄일 수 있는 명확한 기술적 이정표를 제시한다. 표준화된 코드베이스와 설계 원칙은 로봇 공학 연구자들이 더 효율적으로 고성능 파운데이션 모델을 구축하고 확장하는 데 기여할 것이며, 실제 산업 현장의 로봇 자동화 수준을 높이는 데 활용될 수 있다.
키워드
섹션별 상세
VLA 설계 공간의 체계적 분석 프레임워크 구축
성능 최적화를 위한 12가지 핵심 설계 원칙 도출
차세대 VLA 모델 VLANeXt 개발
오픈소스 기반의 통합 VLA 연구 코드베이스 제공
AI 요약 · 북마크 · 개인 피드 설정 — 무료