VLANeXt: 강력한 VLA 모델 구축을 위한 레시피

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 시각-언어-액션(VLA) 모델들은 설계 방식이 파편화되어 성능 결정 요인을 파악하기 어려웠다. 이 논문은 12가지 핵심 설계 원칙을 정립하여 더 작은 모델 크기로도 기존 SOTA 모델인 OpenVLA보다 뛰어난 성능과 일반화 능력을 확보할 수 있음을 증명했다.

왜 중요한가

핵심 기여

VLA 설계 공간의 체계적 분석

기초 구성 요소, 지각 요소, 액션 모델링의 3가지 차원에서 12가지 핵심 발견을 도출하여 강력한 VLA 모델 구축을 위한 실전 레시피를 정립했다.

VLANeXt 모델 제안

분석 결과를 바탕으로 구축된 2.5B 파라미터 규모의 모델로, 더 큰 규모의 모델들을 능가하는 효율성과 성능을 보여준다.

LIBERO-plus 벤치마크 성능 입증

조명, 배경, 레이아웃 등 다양한 환경 변화가 포함된 테스트에서 기존 모델 대비 약 10% 높은 성공률을 기록하며 강력한 일반화 능력을 확인했다.

통합 코드베이스 공개

연구 공동체가 VLA 설계를 재현하고 확장할 수 있도록 표준화된 학습 및 평가 플랫폼을 제공한다.

핵심 아이디어 이해하기

기존 VLA 모델들은 대형 언어 모델(LLM)의 텍스트 토큰을 로봇 액션 토큰으로 단순히 재사용하는 방식을 취해왔다. 하지만 언어적 맥락과 물리적 동작 제어는 데이터 특성이 다르기 때문에 이러한 '결합' 방식은 모델의 표현력을 제한하는 한계가 있다.

VLANeXt는 언어 토큰 재사용 대신 별도의 'Policy Head'를 도입하고, 시각-언어 모델(VLM)과 정책 모듈 사이를 'Soft Connection'이라 불리는 학습 가능한 쿼리 버퍼로 연결한다. 이는 VLM의 풍부한 시각적 이해도를 유지하면서도 로봇 제어에 필요한 정보를 유연하게 추출할 수 있게 한다.

또한 액션을 단순한 분류 문제로 보지 않고 'Flow Matching' 기반의 연속적인 흐름으로 모델링한다. 여기에 로봇 동작의 구조적 특징이 잘 나타나는 주파수 영역(Frequency Domain)에서의 손실 함수를 추가하여, 모델이 더 정교하고 부드러운 동작 시퀀스를 생성하도록 유도한다.

방법론

VLM 백본으로 Qwen3-VL-2B를 사용하며, 16개의 학습 가능한 MetaQuery 토큰과 12레이어의 Policy Head를 통해 표현력을 극대화한다. VLM과 Policy Head는 레이어별로 Soft Connection을 통해 상호작용하며 정보를 전달한다.

지각 단계에서는 3인칭 뷰와 손목 카메라(Wrist Camera) 뷰를 결합한 Multi-view 입력을 사용한다. 로봇의 내부 상태 정보인 Proprioception을 VLM 단계에서 직접 주입하여 시각 정보와 깊게 융합하는 방식을 채택했다.

액션 생성은 8단계의 미래 동작을 한 번에 예측하는 Action Chunking 방식을 사용하며, Flow Matching 목적 함수를 통해 연속적인 액션 분포를 학습한다. 특히 주파수 도메인 보조 손실(Frequency Domain Auxiliary Loss)을 도입하여 동작의 저차원 구조를 효과적으로 포착한다.

[Action Chunking 계산 원리] (t, dim) 형태의 연속 액션 벡터를 입력으로 → Flow Matching 연산을 통해 확률 밀도 경로를 학습하여 → 다음 8단계의 로봇 관절 각도 변화량을 출력하고 → 이를 통해 부드러운 연속 동작 제어를 수행한다.

주요 결과

LIBERO 벤치마크에서 VLANeXt(2.5B)는 평균 성공률 97.4%를 기록하여, 7B 규모의 OpenVLA-OFT(97.1%)를 능가하는 성능을 보였다. 모델 크기가 약 3배 작음에도 불구하고 더 정밀한 제어가 가능함을 입증했다.

일반화 능력을 측정하는 LIBERO-plus 테스트에서는 조명, 배경, 객체 레이아웃 등 7가지 변동 환경에서 평균 80.1%의 성공률을 기록했다. 이는 기존 SOTA 모델인 OpenVLA-OFT(69.6%) 대비 약 10.5%p 향상된 수치이다.

실제 로봇 실험에서도 테이블 청소, 서랍 열기 및 물건 배치 등 4가지 작업에서 기존 모델들보다 일관되게 높은 성공 횟수를 기록하며 실무 적용 가능성을 확인했다. 특히 bimanual(양손) 작업에서도 뛰어난 적응력을 보였다.

기술 상세

전체 아키텍처는 Qwen3-VL-2B-Instruct를 백본으로 하며, VLM의 중간 레이어 출력을 16개의 MetaQuery 토큰과 결합하여 12레이어 Transformer 기반 Policy Head로 전달하는 구조이다. 이는 기존의 단순한 Linear Projector 방식보다 높은 정보 전달 효율을 가진다.

학습 목적 함수는 Flow Matching Loss를 기본으로 하되, 예측된 액션 시퀀스와 실제 액션 사이의 주파수 성분 차이를 줄이는 Frequency Domain Loss를 0.1~0.2 가중치로 추가했다. Discrete Cosine Transform(DCT)을 사용하여 액션 데이터를 주파수 영역으로 변환한 후 MSE를 계산한다.

구현 측면에서 Proprioception 정보는 VLM의 입력 단계에서 텍스트 지시문과 함께 토큰화되어 주입된다. 실험 결과, 이 정보를 Policy Head에 직접 넣는 것보다 VLM 단계에서 융합하는 것이 시각 정보와의 상호 참조 능력을 높여 성능 향상에 더 기여하는 것으로 나타났다.

한계점

모델이 미래 관측치를 예측하는 World Modelling 기능을 추가할 경우 성능은 향상되지만, 학습 시간이 약 3배 증가하는 등 연산 비용이 급격히 상승하는 한계가 있어 최종 레시피에서는 제외되었다.

실무 활용

2.5B 규모의 경량화된 모델로 고성능 로봇 제어가 가능하여, 연산 자원이 제한된 실제 로봇 하드웨어 환경에 배포하기 매우 유리하다.

제조 공정에서의 정밀 부품 조립 및 물류 정리 로봇
가정 내 서비스 로봇의 물건 정리 및 가전 기기 조작
멀티뷰 카메라 시스템을 활용한 복잡한 환경의 원격 조작 보조

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLA(시각-언어-액션 모델)Robot Control(로봇 제어)Flow Matching(플로우 매칭)Action Chunking(액션 청킹)Generalization(일반화)