HiVLA: 시각적 접지 중심의 계층적 로봇 조작 시스템

기존의 통합형 로봇 모델은 미세한 제어 학습 과정에서 고차원적인 추론 능력을 상실하는 고질적인 문제가 있었다. 이 논문은 시각적 접지(Visual Grounding)를 매개로 계획과 실행을 분리하여, 복잡한 환경에서도 로봇이 정확하게 물체를 식별하고 조작할 수 있는 새로운 표준을 제시한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

계층적 시각 접지 프레임워크 HiVLA 제안

고수준의 VLM 플래너와 저수준의 DiT 액션 전문가를 명시적으로 분리하여, VLM의 제로샷 추론 능력을 보존하면서도 정밀한 모터 제어를 가능하게 하는 구조를 설계했다.

계단식 크로스 어텐션 메커니즘 도입

전체 장면의 맥락, 고해상도 물체 중심 크롭 이미지, 기술적 의미 정보를 순차적으로 융합하는 Cascaded Cross-Attention을 통해 액션 전문가가 실행에만 집중할 수 있도록 했다.

SOTA 대비 압도적인 성능 향상 입증

RoboTwin 2.0 벤치마크에서 기존 SOTA 모델인 π0 대비 42.7%의 절대적 성공률 향상을 기록했으며, 특히 작은 물체가 밀집된 환경에서 탁월한 성능을 보였다.

핵심 아이디어 이해하기

기존의 Vision-Language-Action(VLA) 모델은 하나의 거대한 신경망이 시각 이해부터 로봇 팔의 관절 각도 계산까지 모두 수행한다. 이 방식은 학습 데이터가 부족한 로봇 도메인에서 모델을 미세 조정할 때, 원래 모델이 가지고 있던 뛰어난 언어 이해 및 추론 능력이 파괴되는 '파괴적 망각(Catastrophic Forgetting)' 현상을 일으킨다.

HiVLA는 이를 해결하기 위해 '생각하는 뇌(VLM)'와 '움직이는 손(DiT)'을 분리한다. 뇌 역할을 하는 VLM은 전체 이미지를 보고 '빨간 컵을 집어서 쟁반에 놓아라'라는 명령을 '빨간 컵 찾기'와 '쟁반으로 이동'이라는 하위 단계로 쪼개고, 각 단계에서 조작할 물체의 정확한 위치(Bounding Box)를 지정한다. 손 역할을 하는 DiT는 전체 장면이 아닌, 뇌가 지정해준 좁고 선명한 고해상도 이미지 조각에만 집중하여 정밀한 움직임을 생성한다.

결과적으로 로봇은 복잡한 주변 환경에 현혹되지 않고 목표물에만 시선을 고정할 수 있게 된다. 이는 마치 사람이 복잡한 책상 위에서 바늘귀를 꿸 때, 전체 방 안을 보는 것이 아니라 바늘과 실 끝에만 시선을 집중하여 정밀하게 손을 움직이는 원리와 같다.

방법론

HiVLA 시스템은 고수준 VLM 플래너와 저수준 DiT 액션 전문가로 구성된다. VLM 플래너는 현재 시각 정보 Ot와 전체 목표 L을 입력받아 하위 작업 설명 Lsub,t와 대상 물체의 정규화된 Bounding Box Bt를 JSON 형태로 출력한다. 이 과정에서 VLM은 사전 학습된 제로샷 추론 능력을 활용해 복잡한 지시를 실행 가능한 단위로 분해한다.

액션 전문가는 Flow Matching 기반의 Diffusion Transformer(DiT) 구조를 채택한다. 가우시안 노이즈 z와 실제 액션 시퀀스 At 사이의 선형 보간 경로 xτ = τAt + (1-τ)z를 정의하고, 모델 vθ가 벡터 필드 u = At - z를 예측하도록 학습한다. [노이즈와 컨텍스트 입력 → 벡터 필드 예측 → ODE Solver를 통한 적분 → 정밀한 액션 시퀀스 출력] 과정을 통해 연속적인 제어 명령을 생성한다.

핵심 혁신인 Cascaded Cross-Attention은 각 DiT 블록 내에서 세 단계로 작동한다. 첫째, Global Visual Context 레이어에서 DINOv2와 SigLIP으로 추출된 전체 장면 특징을 참조한다. 둘째, Position-Aware Local Features 레이어에서 VLM이 제공한 Bbox로 크롭한 고해상도 이미지와 절대 좌표 인코딩을 결합하여 물체의 미세한 기하학적 특징을 파악한다. 셋째, Subtask Language Guidance 레이어에서 구체적인 기술 명령 임베딩을 주입하여 동작의 의미를 결정한다.

주요 결과

RoboTwin 시뮬레이터의 9개 작업 평가 결과, HiVLA는 평균 83.3%의 성공률을 기록하며 π0(45.6%)와 H-RDT(70.6%)를 크게 앞질렀다. 특히 'Hard Tasks' 카테고리에서 π0가 38.6%에 그친 반면 HiVLA는 73.2%를 달성하여 장기적인 작업 계획과 정밀한 조작이 필요한 환경에서 강력한 성능을 입증했다.

실제 환경(Real-world) 실험에서도 HiVLA는 다중 물체가 밀집된 환경에서 뛰어난 일반화 능력을 보였다. H-RDT가 '3개의 컵'이나 '3개의 블록'처럼 유사한 물체가 섞여 있는 상황에서 대상을 구분하지 못해 성공률이 0%에 수렴한 것과 달리, HiVLA는 시각적 접지 기능을 통해 정확한 대상을 식별하여 높은 성공률을 유지했다.

Ablation Study를 통해 고해상도(1080p) 소스에서의 크롭과 절대적 위치 인코딩(Absolute PE)의 중요성이 확인되었다. 저해상도 이미지를 사용하거나 위치 인코딩을 제거했을 때 성능이 각각 8.1%, 6.5% 하락했으며, 이는 미세 조작과 물체 변별에 정밀한 시각 정보가 필수적임을 시사한다.

관련 Figure

#1Photo
벨 누르기, 시계 클릭, 스테이플러 누르기 등 정밀한 시각 접지가 필요한 작업들을 보여준다. HiVLA가 복잡한 배경과 다양한 물체 사이에서 목표를 정확히 찾아 조작함을 시각적으로 증명한다.
RoboTwin 시뮬레이션 환경에서 수행된 9가지 다양한 로봇 조작 작업의 실행 장면 모음

기술 상세

HiVLA의 아키텍처는 H-RDT를 기반으로 하며, LLaMA 스타일의 Transformer 백본에 RMSNorm과 SwiGLU 활성화 함수를 사용한다. 16개의 레이어와 2,176의 은닉 차원을 가지며, 효율적인 연산을 위해 Grouped Query Attention(GQA)을 적용했다. 시각 인코더로는 DINOv2와 SigLIP의 결합 모델을 사용하여 전역 및 지역 특징을 모두 풍부하게 추출한다.

VLM 플래너로는 Qwen3-VL-8B 모델을 사용하며, 이를 로봇 조작 도메인에 맞게 미세 조정하여 90.37%의 Bbox mIoU와 98.57%의 하위 작업 예측 정확도를 확보했다. 플래너는 1.9초마다 한 번씩 추론을 수행하는 반면, DiT 액션 전문가는 0.162초 만에 16단계의 액션 청크를 생성하여 시스템 전체적으로 8Hz의 실시간 제어 빈도를 유지한다.

학습 전략 측면에서, DiT는 EgoDex 데이터셋으로 사전 학습된 H-RDT의 가중치를 활용해 초기화되었으며, 특히 전역 이미지 크로스 어텐션 레이어의 가중치를 새로 도입된 지역 이미지 레이어에 복사하여 학습 효율을 높였다. 이러한 계층적 분리 구조는 VLM과 액션 전문가를 각각 독립적으로 확장하거나 더 강력한 모델로 교체할 수 있는 유연성을 제공한다.

한계점

VLM 플래너가 1.9초의 추론 시간을 소요하므로, 소프트웨어 가속 없이는 매우 빠른 반응이 필요한 동적 환경에서의 실시간 대응에 제약이 있을 수 있다. 또한, 현재 시스템은 VLM이 생성한 Bbox와 텍스트 지시에 전적으로 의존하므로 플래너의 치명적인 오류가 발생할 경우 하위 정책의 복구 능력에 한계가 있을 수 있다.

실무 활용

HiVLA는 복잡하고 정밀한 조작이 필요한 산업용 로봇이나 서비스 로봇 분야에 즉시 적용 가능한 계층적 아키텍처를 제공한다.

물류 창고에서 다양한 크기와 모양의 물체가 섞여 있는 박스 내 물품 분류 및 피킹
가정용 서비스 로봇이 '식탁 위 파란색 컵만 골라서 세척기에 넣어줘'와 같은 복잡한 음성 명령 수행
정밀 부품 조립 라인에서 작은 나사나 부품을 식별하고 정확한 위치에 배치하는 작업

코드 공개 여부: 공개

코드 저장소 보기

관련 Figure

#2Photo
시뮬레이션을 넘어 실제 환경에서도 '왼쪽 벨 클릭'이나 '3번 블록 집기'와 같은 세밀한 지시를 성공적으로 수행함을 보여준다. 이는 모델의 강력한 일반화 성능과 실용성을 뒷받침한다.
실제 물리 환경에서 다양한 색상의 컵과 블록을 조작하는 HiVLA 시스템의 실행 과정

키워드

VLA(시각-언어-행동 모델)VLM(시각-언어 모델)Diffusion Transformer(확산 트랜스포머)Visual Grounding(시각적 접지)Hierarchical Control(계층적 제어)

HiVLA: 시각적 접지 중심의 계층적 로봇 조작 시스템

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

계층적 시각 접지 프레임워크 HiVLA 제안

계단식 크로스 어텐션 메커니즘 도입

SOTA 대비 압도적인 성능 향상 입증

RoboTwin 2.0 벤치마크에서 기존 SOTA 모델인 π0 대비 42.7%의 절대적 성공률 향상을 기록했으며, 특히 작은 물체가 밀집된 환경에서 탁월한 성능을 보였다.

핵심 아이디어 이해하기

방법론

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

HiVLA는 복잡하고 정밀한 조작이 필요한 산업용 로봇이나 서비스 로봇 분야에 즉시 적용 가능한 계층적 아키텍처를 제공한다.

물류 창고에서 다양한 크기와 모양의 물체가 섞여 있는 박스 내 물품 분류 및 피킹
가정용 서비스 로봇이 '식탁 위 파란색 컵만 골라서 세척기에 넣어줘'와 같은 복잡한 음성 명령 수행
정밀 부품 조립 라인에서 작은 나사나 부품을 식별하고 정확한 위치에 배치하는 작업

코드 공개 여부: 공개

코드 저장소 보기

관련 Figure

키워드

VLA(시각-언어-행동 모델)VLM(시각-언어 모델)Diffusion Transformer(확산 트랜스포머)Visual Grounding(시각적 접지)Hierarchical Control(계층적 제어)

HiVLA: 시각적 접지 중심의 계층적 로봇 조작 시스템

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

HiVLA: 시각적 접지 중심의 계층적 로봇 조작 시스템

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드