VTAM: 복잡한 물리적 상호작용을 위한 비디오-촉각-행동 모델

기존의 시각 중심 로봇 제어 모델은 물체를 직접 만지는 순간 발생하는 미세한 물리적 변화나 시각적 가려짐 문제를 해결하는 데 한계가 있었다. 이 논문은 촉각 데이터를 세계 모델에 직접 통합하여 부서지기 쉬운 물체를 다루거나 정밀한 힘 조절이 필요한 작업에서 로봇의 안정성과 성공률을 획기적으로 높였다.

왜 중요한가

핵심 기여

VTAM 프레임워크 제안

시각과 촉각 데이터를 동일한 잠재 공간에서 통합 처리하여 미래의 시각적 상태와 촉각적 피드백을 동시에 예측하는 비디오-촉각 세계 모델 아키텍처 구축.

가상 힘 예측 목적 함수 도입

촉각 센서의 표면 변형 데이터를 활용해 3D 가상 힘을 예측하는 보조 작업(Auxiliary Task)을 추가하여, 학습 중 시각 정보에만 의존하게 되는 모달리티 붕괴 현상을 효과적으로 방지.

2단계 계층적 학습 전략

시각-촉각 동역학을 먼저 학습하여 일관된 멀티모달 표현을 확보한 후, 이를 바탕으로 행동 제어 정책을 최적화하여 복합 감각 데이터 활용의 안정성 확보.

접촉 밀집 작업에서의 성능 입증

감자칩 집기, 오이 껍질 벗기기 등 정밀한 힘 조절이 필수적인 실세계 작업에서 기존 시각 전용 모델(π0.5) 대비 최대 80% 이상의 성능 향상 달성.

핵심 아이디어 이해하기

기존 로봇 제어 모델인 VLA는 시각 정보와 언어 지시를 결합해 동작을 결정하지만, 물체와 접촉하는 순간 발생하는 마찰이나 미세한 미끄러짐 같은 물리적 상호작용을 파악하기 어렵다. 특히 로봇의 손가락이 물체를 가리는 상황에서는 시각 정보만으로 정확한 파악이 불가능해져 정밀한 조작이 실패하게 된다.

VTAM은 촉각을 단순한 보조 입력이 아닌 시각과 동등한 주요 감각으로 다룬다. Transformer 기반의 비디오 백본을 사용하여 현재의 시각과 촉각 상태를 입력받아 '다음에 어떤 장면이 보이고 어떤 촉감이 느껴질지'를 동시에 예측하도록 설계했다. 이는 로봇이 자신의 행동에 따른 물리적 결과를 미리 예상하며 움직이게 만드는 효과를 준다.

학습 과정에서 시각 정보의 영향력이 너무 커서 촉각 신호가 무시되는 현상을 막기 위해 '가상 힘(Virtual Force)' 개념을 도입했다. 촉각 센서 표면의 미세한 움직임을 수치화하고 이를 행동 결정 과정에서 함께 예측하도록 강제함으로써, 모델이 시각적으로 모호한 상황에서도 촉각 신호의 변화에 민감하게 반응하여 적절한 힘을 가하도록 유도했다.

방법론

전체 구조는 VAE(Variational Autoencoder)를 통해 시각 및 촉각 입력을 잠재 공간으로 투영한 뒤, 비디오 확산 모델 백본에서 이를 통합 처리한다. [다중 시점 이미지와 촉각 프레임을 입력으로] → [VAE Encoder를 통해 압축된 잠재 벡터를 생성하고] → [이를 Transformer 블록에 입력하여] → [시공간적으로 일관된 멀티모달 표현을 얻는다].

핵심 메커니즘은 교차 뷰 어텐션(Cross-view Attention)을 활용한 시공간 모델링이다. 각 블록에서 독립적인 셀프 어텐션을 수행한 후 여러 시점의 시각 정보와 촉각 정보를 결합하는 과정을 반복한다. [개별 감각 벡터를 입력으로] → [Intra-view Self-attention과 Cross-view Attention을 교차 수행하여] → [감각 간 상관관계가 반영된 통합 벡터를 출력하고] → [이를 통해 미래의 시각/촉각 프레임을 예측한다].

가상 힘 예측(Virtual Force Prediction)은 촉각 센서의 광학 흐름(Optical Flow)에서 유도된다. [촉각 프레임 간 픽셀 이동량 u_t를 입력으로] → [공간적 평균 및 발산(Divergence) 연산을 수행해] → [3차원 가상 힘 벡터 F_v를 얻고] → [이 값을 행동 헤드에서 함께 예측하도록 하여 촉각 경로에 직접적인 학습 신호를 제공한다].

주요 결과

감자칩 집기(Chip Pick-and-Place) 작업에서 VTAM은 90%의 성공률을 기록했다. 반면 시각 전용 모델인 π0.5는 10%, 촉각 정보를 단순 주입한 모델은 5%에 그쳐, 촉각 데이터를 세계 모델 내에서 예측적으로 모델링하는 것이 정밀 조작에 필수적임을 입증했다.

오이 껍질 벗기기(Cucumber Peeling)와 화이트보드 닦기(Whiteboard Wiping)에서도 각각 85%, 95%의 높은 성공률을 달성했다. 특히 기울어진 보드를 닦는 실험에서 시각 전용 모델은 접촉을 유지하지 못하거나 과도한 힘을 가해 보드를 밀어버리는 실수를 범했으나, VTAM은 안정적인 힘 조절로 일관된 성능을 보여주었다.

소거 연구(Ablation Study) 결과, 가상 힘 규제화(Virtual Force Reg.)를 제거했을 때 성공률이 10%로 급락했다. 이는 시각 정보가 지배적인 학습 환경에서 촉각 신호를 유의미하게 반영하기 위해 명시적인 보조 손실 함수를 통한 감독이 결정적인 역할을 함을 시사한다.

실무 활용

정밀한 힘 조절이 필요한 제조 공정이나 가사 지원 로봇 분야에 즉시 응용 가능한 기술이다. 특히 부서지기 쉬운 물체를 다루거나 시각적으로 가려진 좁은 공간에서 조작이 필요한 환경에서 높은 신뢰성을 제공한다.

반도체 칩이나 유리판 등 파손 위험이 큰 정밀 부품의 조립 및 운반 공정
과일 껍질 벗기기나 식재료 손질 등 정교한 힘 조절이 필요한 가사 서비스 로봇
시각적 사각지대가 빈번한 복잡한 기계 내부의 정비 및 부품 교체 작업

기술 상세

VTAM은 LTX-Video 트랜스포머를 백본으로 사용하며, 28개의 레이어와 32개의 어텐션 헤드, 2048의 은닉 차원을 갖춘 아키텍처를 채택했다. 시각 데이터는 192x256 해상도로 입력되며, 촉각 데이터는 GelSight Mini 센서를 통해 획득한 고해상도 표면 변형 이미지를 잠재 토큰화하여 처리한다.

학습은 2단계 전략을 따른다. 1단계에서는 Flow Matching 기법을 사용하여 시각-촉각 잠재 상태의 미래 동역학을 학습하며, 이때 초기 조건 프레임을 제외한 미래 프레임에 대해서만 손실 함수를 적용한다. 2단계에서는 동결된 백본 위에 행동 전문가(Action Expert) 헤드를 추가하여 행동(Action), 가상 힘(Virtual Force), 고유 수용 감각(Proprioception)을 공동으로 노이즈 제거(Denoising)하도록 최적화한다.

가상 힘 프록시(F_v)는 별도의 물리적 힘 센서 없이도 기하학적 변형만으로 힘의 크기와 방향을 추정한다. 수평 방향 힘(fx, fy)은 광학 흐름의 평균값으로, 수직 방향 힘(fz)은 흐름의 발산(Divergence) 값으로 근사하여 모델이 접촉 상태를 수치적으로 이해하고 제어에 반영하도록 돕는다.

한계점

실험이 1Hz의 낮은 추론 주파수 제약 하에서 진행되어 실시간 고속 대응에는 한계가 있을 수 있으며, 고해상도 촉각 이미지를 재구성하는 과정에서 발생하는 계산 비용이 존재한다.

키워드

VAM(비디오-행동 모델)Tactile Sensing(촉각 감지)World Model(세계 모델)Contact-rich Manipulation(접촉 밀집 조작)Multimodal Fusion(멀티모달 융합)

VTAM: 복잡한 물리적 상호작용을 위한 비디오-촉각-행동 모델

왜 중요한가

핵심 기여

VTAM 프레임워크 제안

가상 힘 예측 목적 함수 도입

2단계 계층적 학습 전략

접촉 밀집 작업에서의 성능 입증

감자칩 집기, 오이 껍질 벗기기 등 정밀한 힘 조절이 필수적인 실세계 작업에서 기존 시각 전용 모델(π0.5) 대비 최대 80% 이상의 성능 향상 달성.

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

반도체 칩이나 유리판 등 파손 위험이 큰 정밀 부품의 조립 및 운반 공정
과일 껍질 벗기기나 식재료 손질 등 정교한 힘 조절이 필요한 가사 서비스 로봇
시각적 사각지대가 빈번한 복잡한 기계 내부의 정비 및 부품 교체 작업

기술 상세

한계점

키워드

VAM(비디오-행동 모델)Tactile Sensing(촉각 감지)World Model(세계 모델)Contact-rich Manipulation(접촉 밀집 조작)Multimodal Fusion(멀티모달 융합)

VTAM: 복잡한 물리적 상호작용을 위한 비디오-촉각-행동 모델

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

VTAM: 복잡한 물리적 상호작용을 위한 비디오-촉각-행동 모델

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드