핵심 요약
기존 로봇 제어 AI는 신경망이 깊어질수록 눈앞의 사물을 놓치는 '시각적 감쇠' 현상을 겪는다. 이 논문은 고해상도 시각 전문가 모델의 정보를 신경망 깊숙이 직접 전달하는 방식을 통해, 복잡한 환경에서도 로봇이 정밀하게 움직일 수 있는 새로운 아키텍처를 제시한다.
왜 중요한가
기존 로봇 제어 AI는 신경망이 깊어질수록 눈앞의 사물을 놓치는 '시각적 감쇠' 현상을 겪는다. 이 논문은 고해상도 시각 전문가 모델의 정보를 신경망 깊숙이 직접 전달하는 방식을 통해, 복잡한 환경에서도 로봇이 정밀하게 움직일 수 있는 새로운 아키텍처를 제시한다.
핵심 기여
VL-MoT 프레임워크 개발
시각 전문가 모델의 특징을 VLA 백본의 깊은 레이어에 직접 주입하는 구조를 통해, 레이어가 깊어질수록 시각 정보에 대한 민감도가 떨어지는 문제를 해결함.
AGVP(Action-Guided Visual Pruning) 기법 도입
얕은 레이어의 어텐션 정보를 활용해 작업과 무관한 시각 토큰을 제거함으로써, 고해상도 시각 정보를 최소한의 연산 비용으로 처리함.
VLA 모델의 레이어별 시각적 접지 특성 규명
기존 VLA 모델들이 깊은 레이어로 갈수록 시각 토큰에 대한 어텐션이 약해진다는 사실을 체계적인 분석을 통해 최초로 입증함.
시뮬레이션 및 실세계 SOTA 달성
RLBench 시뮬레이션에서 9.0%, 실제 로봇 조작 작업에서 7.5%의 성능 향상을 기록하며 기존 최첨단 모델들을 압도함.
핵심 아이디어 이해하기
Transformer 기반의 로봇 제어 모델은 시각 정보를 첫 번째 층에 입력하고 여러 층을 거치며 처리한다. 하지만 연구 결과, 층이 깊어질수록 모델은 눈앞의 이미지보다는 이전의 행동 맥락에 더 치중하게 되어 정밀한 조작에 필요한 시각 정보를 잃어버리는 현상이 발견됐다.
DeepVision-VLA는 이 문제를 해결하기 위해 '시각 전문가(Vision Expert)'인 DINOv3를 별도로 두고, 여기서 추출한 생생한 시각 특징을 모델의 깊은 층에 직접 수혈한다. 이는 마치 복잡한 작업을 수행하는 중간에 다시 한번 눈을 크게 뜨고 대상을 확인하는 것과 같은 원리이다.
또한 모든 시각 데이터를 다 보내면 계산량이 너무 많아지므로, 시각 정보가 비교적 정확하게 유지되는 앞쪽 층의 '어텐션(Attention)' 지도를 가이드로 삼는다. 중요한 물체가 있는 영역만 골라내어 깊은 층에 전달함으로써, 효율성과 정밀도라는 두 마리 토끼를 동시에 잡는 구조를 완성했다.
방법론
VL-MoT(Vision-Language Mixture-of-Transformers) 구조를 핵심으로 한다. Qwen3-VL(4B) 백본의 마지막 16개 레이어와 시각 전문가인 DINOv3-H의 마지막 16개 레이어를 공유 어텐션 메커니즘으로 결합하여 시각적 민감도를 복원한다.
AGVP(Action-Guided Visual Pruning) 전략은 연산 효율성을 극대화한다. [얕은 레이어의 행동 토큰에서 시각 토큰으로 향하는 어텐션 가중치 A 입력 → 행동 토큰 차원에 대해 평균 연산 수행 → 중요도 벡터 m 산출 → 상위 K개 토큰 선택] 과정을 통해 작업과 무관한 배경 정보를 제거한다. 이를 통해 512x512 고해상도 입력을 효율적으로 처리한다.
공유 어텐션 층에서는 [VLA 백본의 특징 Z와 전문가의 특징 E 입력 → 각각 선형 투영을 통해 Q, K, V 생성 → Q=[QE; QZ] 형태로 결합 → Softmax(QK^T/√d) 연산 → 가중 합산된 특징 H 출력] 순으로 계산이 이루어진다. 이 과정은 두 모델의 정보를 간섭 없이 융합하여 더 견고한 행동 예측을 가능하게 한다.
주요 결과
RLBench 시뮬레이션의 10가지 작업에서 평균 성공률 83%를 기록했다. 이는 기존 SOTA 모델인 HybridVLA(74%)와 OpenVLA(40%)를 크게 상회하는 수치이다. 특히 'Sweep to Dustpan'과 같이 정밀한 시각 인지가 필요한 작업에서 QwenVLA-OFT 대비 80% 이상의 성능 향상을 보였다.
실제 로봇(Franka Research 3) 실험에서도 'Coke 캔 쌓기', 'S자 쓰기' 등 난이도 높은 작업에서 평균 성공률 91.7%를 달성했다. 이는 강력한 베이스라인인 π0.5(84.2%)보다 7.5% 높은 결과이며, 다단계 작업인 '과일을 접시에 담기' 등에서도 95% 이상의 높은 성공률을 유지했다.
Ablation Study 결과, 시각 전문가의 마지막 레이어 특징을 사용하는 것이 초기 레이어 대비 성공률을 26.5%p 높였으며, AGVP를 통한 토큰 프루닝이 노이즈를 효과적으로 억제하여 모델의 일반화 성능을 높였음이 확인됐다.
실무 활용
고해상도 시각 인지가 필수적인 정밀 로봇 조작 분야에 즉시 적용 가능한 기술이다. 특히 조명 변화나 복잡한 배경 등 실제 작업 환경에서 발생할 수 있는 변수에 강한 내성을 갖추고 있어 상용 로봇 솔루션의 신뢰성을 높일 수 있다.
- 물류 창고 내 비정형 물체의 정밀한 피킹 및 적재 작업
- 화이트보드 글자 쓰기나 정밀 부품 조립 등 고도의 공간 추적이 필요한 작업
- 액체 따르기나 깨지기 쉬운 물체 다루기 등 다단계 정밀 조작
- 가변적인 조명이나 복잡한 배경이 존재하는 실제 가정/공장 환경의 로봇 제어
기술 상세
DeepVision-VLA는 Qwen3-VL(4B)을 백본으로, DINOv3(0.8B)를 시각 전문가로 사용하는 비대칭 이중 구조를 취한다. 기존 VLA 모델들이 시각 정보를 초기 입력으로만 사용하는 직렬 구조의 한계를 극복하기 위해, 깊은 레이어에 특징을 직접 주입하는 병렬 보완 아키텍처를 제안한다.
VL-MoT 설계 시 단순한 특징 연결(Concatenation) 대신 QKV 표현을 직접 공유 어텐션 층에 노출시킨다. 이는 전문가 모델의 사전 학습된 지식을 보존하면서도 VLA 백본의 행동 조건부 특징과 유연하게 결합되도록 유도한다. 특히 전문가 모델의 마지막 레이어들이 객체 중심적(Object-centric)이고 의미론적으로 풍부한 정보를 담고 있다는 점을 활용하여 깊은 층과의 호환성을 극대화했다.
AGVP는 레이어 4-19 사이의 얕은 층 어텐션 맵을 활용한다. [행동 토큰의 어텐션 가중치 추출 → 보간(Interpolation)을 통한 해상도 일치 → 상위 K개 토큰 인덱스 추출] 과정을 거쳐, 모델이 행동과 직접적으로 관련된 ROI(Region of Interest)에만 집중하도록 강제한다. 이는 외부 감독이나 추가 어노테이션 없이도 엔드투엔드 학습 과정에서 자율적으로 시각적 접지 능력을 강화하는 알고리즘적 해법이다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료