VP-VLA: 시각-언어-행동 모델을 위한 인터페이스로서의 시각적 프롬프팅

기존 로봇 제어 모델은 복잡한 명령을 단일 신경망으로 처리하려다 정밀도가 떨어지는 '블랙박스' 문제에 직면해 있었다. 이 논문은 명령을 단계별로 나누고 화면에 직접 목표물을 표시하는 '시각적 프롬프트' 인터페이스를 도입해, 로봇이 낯선 환경에서도 훨씬 더 정확하고 견고하게 움직일 수 있는 새로운 표준을 제시했다.

왜 중요한가

핵심 기여

이중 시스템 아키텍처(Dual-system Architecture)

고수준 추론을 담당하는 System 2 Planner와 저수준 실행을 담당하는 System 1 Controller를 분리하여 복잡한 작업 수행 능력을 강화했다.

구조화된 시각적 프롬프팅 인터페이스

텍스트 명령을 십자선(Crosshair)이나 바운딩 박스(Bounding Box) 같은 시각적 표식으로 변환하여 제어 모델에 명확한 공간적 가이드를 제공한다.

보조 시각적 그라운딩 목적 함수 도입

학습 과정에서 모델이 시각적 프롬프트를 단순한 노이즈가 아닌 핵심 공간 정보로 내재화하도록 강제하는 새로운 손실 함수를 설계했다.

이벤트 기반 작업 분해 메커니즘

로봇 그리퍼의 상태 변화 등을 감지하여 적절한 시점에 다음 하위 작업으로 전환하는 효율적인 추론 루프를 구현했다.

핵심 아이디어 이해하기

기존의 VLA 모델은 이미지와 텍스트를 입력받아 즉시 로봇 관절의 움직임을 출력하는 단일 신경망 구조를 주로 사용한다. 이는 마치 사람이 복잡한 요리 레시피를 한 번 읽고 머릿속으로 모든 근육의 미세한 움직임을 동시에 계산하려는 것과 같아, 목표 물체의 위치를 정확히 파악하지 못하거나 낯선 물체를 만났을 때 쉽게 실패하는 한계가 있다.

VP-VLA는 이를 해결하기 위해 인지 과정을 두 단계로 나눈다. 먼저 System 2 Planner(VLM)가 전체 명령을 하위 작업으로 쪼개고, 화면상에 목표 객체의 위치(십자선)와 놓을 위치(박스)를 직접 그려 넣는다. System 1 Controller는 이렇게 '시각적으로 강조된' 이미지를 보고 실제 로봇 팔을 움직인다. 이는 복잡한 언어 이해와 정밀한 공간 제어를 동시에 수행해야 하는 모델의 부담을 획기적으로 덜어준다.

이 접근 방식은 모델이 학습 데이터에 없던 새로운 물체나 위치를 만났을 때 특히 빛을 발한다. 로봇은 텍스트의 의미를 추론하는 대신 화면에 표시된 시각적 표식만 따라가면 되기 때문이다. 결과적으로 딥러닝의 Embedding과 Attention 메커니즘이 시각적 표식이라는 명확한 앵커(Anchor)에 집중하게 되어, 일반화 성능과 조작 정밀도가 크게 향상된다.

방법론

전체 프레임워크는 System 2 Planner와 System 1 Controller로 구성된 이중 구조를 채택한다. System 2는 Qwen3-VL-4B-Instruct를 기반으로 하며, 사용자 쿼리를 하위 작업(Sub-tasks)으로 분해하고 SAM3를 이용해 목표 객체와 위치에 대한 시각적 프롬프트( $I_{vp}^t$ )를 생성한다. 시각적 프롬프트는 상호작용 앵커인 십자선( $C \in \mathbb{R}^2$ )과 공간적 제약 조건인 바운딩 박스( $B \in \mathbb{R}^4$ )로 구성되어 원본 이미지 위에 오버레이된다.

System 1 Controller는 VLM 백본( $f_\omega$ )과 액션 디코더( $h_\psi$ )로 구성된다. 학습 시 보조 그라운딩 태스크를 추가하여 모델이 시각적 프롬프트의 좌표를 내부적으로 인식하도록 유도한다. 그라운딩 손실( $\mathcal{L}_{grounding}$ )은 이미지 차원을 1,000개의 균일한 빈(bin)으로 나누어 좌표를 예측하는 분류 문제로 정의된다.

전체 손실 함수는 $\mathcal{L}_{total} = \mathcal{L}_{action}(\theta) + \lambda \mathbb{1}_{event} \mathcal{L}_{grounding}(\omega)$ 로 계산된다. [이벤트 발생 여부를 나타내는 지시 함수 $\mathbb{1}_{event}$ 와 그라운딩 손실 값을 입력으로] → [가중치 $\lambda$ 를 곱해 액션 손실과 합산하는 연산을 수행해] → [최종 손실 숫자를 얻고] → [이 값을 줄이는 방향으로 가중치를 갱신하여 동작 정확도와 공간 인식 능력을 동시에 최적화한다].

주요 결과

Robocasa-GR1-Tabletop 벤치마크에서 평균 성공률 53.8%를 기록하며, 강력한 베이스라인인 QwenOFT(48.8%)를 5.0%p 차이로 앞질렀다. 특히 여러 단계가 포함된 'PnP * to * Close' 설정에서 54.3%의 성공률을 보여 복잡한 작업 수행 능력을 입증했다.

SimplerEnv 시뮬레이션 환경에서는 평균 58.3%의 성공률을 달성하여 베이스라인 대비 8.3%p의 성능 향상을 보였다. 이는 $\pi_{0.5}$ (57.1%)나 Isaac-GR00T-N1.6(57.1%) 등 기존의 주요 VLA 모델들을 모두 능가하는 수치이다.

실제 로봇(Franka Research 3)을 이용한 실험에서도 뛰어난 일반화 성능을 보였다. 학습 데이터에 없던 새로운 물체(OOD)에 대해 기존 모델은 성공률이 16.7%p 급락한 반면, VP-VLA는 단 2.5%p의 하락만을 보이며 85%의 높은 성공률을 유지했다. 이는 시각적 프롬프트가 낯선 객체에 대한 공간적 가이드 역할을 성공적으로 수행했음을 의미한다.

실무 활용

복잡한 가전 기기 조작이나 주방 작업 등 다단계 로봇 작업에 즉시 적용 가능한 프레임워크이다. 시각적 가이드를 통해 모델의 조작 정밀도를 높일 수 있어 실무 환경의 로봇 도입에 유리하다.

가정 내 주방 보조 로봇의 복잡한 식기 정리 및 가전 조작
물류 창고 내 비정형 물체의 정밀한 피킹 및 지정 위치 배치
서비스 로봇의 다단계 사용자 명령 수행(예: 냉장고에서 특정 음료를 꺼내 컵에 따르기)

기술 상세

아키텍처는 고수준 이벤트를 감지하여 작동하는 이벤트 기반(Event-driven) 루프를 특징으로 한다. 그리퍼의 상태 변화( $S_t$ )를 감지하여 상태 매핑 함수 $\phi$ 의 차이가 임계값 $\epsilon$ 을 넘을 때만 System 2 Planner를 호출함으로써 불필요한 고수준 추론 연산을 줄였다.

시각적 프롬프트 생성 시 SAM3(Segment Anything Model 3)를 활용하여 텍스트 기반의 객체 분할을 수행한다. 추출된 마스크의 중심점(Centroid)을 십자선으로, 배치 영역을 바운딩 박스로 변환하여 입력 이미지에 결합하는 파이프라인을 구축했다. 이는 모델의 탐색 공간을 전체 이미지에서 특정 상호작용 영역으로 좁히는 효과를 준다.

System 1 Controller의 학습에는 QwenOFT 아키텍처를 차용했으며, Prismatic VLM을 Qwen3-VL-4B-Instruct로 교체하여 성능을 높였다. 8개의 GPU에서 AdamW 옵티마이저를 사용해 학습했으며, VLM에는 1e-5, 액션 모델에는 1e-4의 학습률을 적용했다. 그라운딩 손실은 VLM 파라미터 $\omega$ 를 통해서만 역전파되도록 설계되었다.

데이터 준비 과정에서 하위 작업 리스트를 생성하고, 주요 프레임(Key frames)에서만 VLM이 하위 작업을 예측하도록 설계했다. 실패한 에피소드는 데이터셋에서 제외하여 노이즈 섞인 감독 신호가 유입되는 것을 방지함으로써 학습의 안정성을 확보했다.

한계점

동시에 여러 개의 프롬프트(십자선과 박스 등)를 렌더링할 경우 시각적 노이즈가 발생하여 정책의 주의 집중을 방해하고 성공률을 저하시킬 수 있다. 또한, 시간적 분해(Temporal decomposition)가 없는 모델은 복잡한 다단계 시퀀스에서 목표를 구분하는 데 어려움을 겪는 것으로 나타났다.

키워드

VLA(시각-언어-행동 모델)Visual Prompting(시각적 프롬프팅)Robotic Manipulation(로봇 조작)Dual-system Architecture(이중 시스템 아키텍처)Visual Grounding(시각적 그라운딩)

VP-VLA: 시각-언어-행동 모델을 위한 인터페이스로서의 시각적 프롬프팅

왜 중요한가

핵심 기여

이중 시스템 아키텍처(Dual-system Architecture)

고수준 추론을 담당하는 System 2 Planner와 저수준 실행을 담당하는 System 1 Controller를 분리하여 복잡한 작업 수행 능력을 강화했다.

구조화된 시각적 프롬프팅 인터페이스

텍스트 명령을 십자선(Crosshair)이나 바운딩 박스(Bounding Box) 같은 시각적 표식으로 변환하여 제어 모델에 명확한 공간적 가이드를 제공한다.

보조 시각적 그라운딩 목적 함수 도입

학습 과정에서 모델이 시각적 프롬프트를 단순한 노이즈가 아닌 핵심 공간 정보로 내재화하도록 강제하는 새로운 손실 함수를 설계했다.

이벤트 기반 작업 분해 메커니즘

로봇 그리퍼의 상태 변화 등을 감지하여 적절한 시점에 다음 하위 작업으로 전환하는 효율적인 추론 루프를 구현했다.

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

가정 내 주방 보조 로봇의 복잡한 식기 정리 및 가전 조작
물류 창고 내 비정형 물체의 정밀한 피킹 및 지정 위치 배치
서비스 로봇의 다단계 사용자 명령 수행(예: 냉장고에서 특정 음료를 꺼내 컵에 따르기)

VP-VLA: 시각-언어-행동 모델을 위한 인터페이스로서의 시각적 프롬프팅

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

VP-VLA: 시각-언어-행동 모델을 위한 인터페이스로서의 시각적 프롬프팅

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드