IntentVLA: Aliased 로봇 조작을 위한 history-conditioned 짧은 지향 의도 모델링

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Vision-Language-Action(VLA) 모델은 현재 프레임의 관측과 언어 지시로 바로 실행을 예측하는 경향이 있다. 이러한 프레임 단위 conditioning은 부분 관찰 상황에서 동일한 관측이 서로 다른 다음 Chunk를 필요로 하는 의도 전이를 야기해 실행의 불안정성을 초래한다. AliasBench는 이 짧은-horizon 의도 aliasing을 체계적으로 시험하도록 설계되었으며, IntentVLA는 최근 시각 기록을 이용해 짧은 horizon의 의도를 압축 표현으로 포착하고 이를 바탕으로 Chunk 생성을 조건화함으로써 rollout의 안정성과 성공률을 높인다.

왜 중요한가

핵심 기여

AliasBench: Ambiguity-aware 12-task 벤치마크

RoboTwin2 위에 매칭된 시뮬레이션 학습 데이터와 평가 환경을 구축하여, 프레임 단독 관찰로는 활성화된 짧은-horizon 의도를 구별하기 어려운 4가지 aliasing 패밀리(back-and-forth, crossing-path, bimanual, multi-goal)를 포괄적으로 테스트한다.

IntentVLA: history-conditioned VLA 프레임워크

최근 시각(history) 정보를 고정된 VGGT 기반 인코더로 추출하고, current VLA 컨텍스트와 선택적으로 게이트된 크로스 어텐션으로 융합하여 short-horizon intent 표현(mt)를 생성하고 이를 기반으로 chunk 생성을 조건화한다.

VGGT-1B history encoder 및 토큰 기반 팩토링

history encoder는 camera 토큰과 4개의 register 토큰으로 최근 시점의 시점 변화를 포착하고, 이를 양방향projection으로 차원 공간에 매핑하여 Ut, et를 구성한다. 두 형태의 history 정보(U˜t, et)가 현재 맥락과 융합되어 Ct를 형성한다.

DiT-based flow-matching head를 통한 chunk 생성

Ct를 조건으로 하여 Gaussian 노이즈에서 시작하는 흐름-매칭 방식으로 action chunk를 생성한다. 이는 학습 목표 L_flow에 의해 최적화되며, 테스트 시 Ct는 결정 시점에 고정된다.

실험 전개: AliasBench, SimplerEnv, LIBERO, RoboCasa를 통한 일반화

AliasBench에서의 평균 성공률 45.8%를 달성하고, SimplerEnv(72.9%), LIBERO-Long(97.4%), RoboCasa(GR1)에서의 성능도 개선하며, 프레임 조건화 기반 정책의 롤아웃 안정성과 일관성을 높임.

핵심 아이디어 이해하기

단락 1: 문제 정의 — 프레임 조건화 VLA는 부분 관찰 상황에서 동일 프레임이 서로 다른 다음 조치를 필요로 하는 의도를 암묵적으로 구별하지 못한다. 이로 인해 인접 재계획에서 의도가 바뀌며 불일치한 chunk가 생성될 수 있다. 단락 2: 해결 원리 — 최근 시각(history)을 VGGT-1B로 인코딩하고 이를 current VLA 컨텍스트와 게이트된 크로스-어텐션으로 융합하여 현재의 짧은-horizon continuation에 대한 compact한 의도 표현(mt)을 만든다. mt는 Ct에 포함되어 DiT-based flow-matching head의 조건으로 작동한다. 단락 3: 구현 포인트 — current Ft는 Qwen3-VL 백본으로 얻고, history Ut는 VGGT-1B에서 추출되며 U˜t와 et를 통해 두 가지 형태의 역사 정보를 제공한다. Ct는 Ft와 history 정보를 결합한 후 하나의 요약 토큰(e_tok_t)을 포함해 구성된다. 이 과정을 통해 프레임-기반의 의도 추론 대신 episode의 지역적 커밋먼트를 보존한다. 단락 4: 기대 효과 — ICC-L2를 감소시키고 다수 벤치마크에서 성능을 향상시키며, 특히 crossing-path와 back-and-forth 같은 aliasing 상황에서 유연성이 증가한다. 그러나 장기 메모리나 대규모 큰 시스템에 대한 추가 연구가 필요하며, 본 연구는 시뮬레이션 기반 실험에 국한된다.

방법론

단락 1: 전체 접근 방식 — ot(현재 관측), ℓ(언어 지시), hK_t(최근 시각 히스토리)에서 τ_t를 예측하는 chunk 기반 제어를 목표로 한다. 기존 프레임-조건화 정책은 ot, ℓ로만 작동하는 반면, IntentVLA는 ht를 활용해 zt를 간접적으로 보존한다. 단락 2: 핵심 구성 요소 — Ft = qψ(ot, ℓ)로 현재 컨텍스트를 얻고, Ut = gφ(hK_t)로 history evidence를 얻는다. U˜t = LN(Wh Ut), et = Wee¯t로 차원을 투영해 Ct = [F′t; et]를 형성한다. F′t = Ft + σ(α) MHA(Q=LN(Ft), K=U˜t, V=U˜t)로 history와 현재를 융합한다. 단락 3: 학습 목표 및 구현 — Ct를 조건으로 삼아 Diffusion/Flow-Transform 기반의 action head를 통해 노이즈에서 시작하는 예측 chunk를 denoise한다. 학습 손실은 Lflow로 정의되며, Xs = (1−s)ϵ + sτt에서 V̂θ(Xs, s | Ct)을 τt − ϵ에 맞춘다. 단락 4: 구현 세부사항 — current 프레임은 Qwen3-VL 4B 백본, history 인코더는 frozen VGGT-1B를 사용하며 camera 토큰과 register 토큰 4개를 추출한다. 학습은 30K 단계, 16 GPUs(H100), 배치 사이즈 16 per GPU, DeepSpeed ZeRO-2, gradient clipping, 오버헤드 관리 등으로 수행한다.

주요 결과

단락 1: AliasBench에서의 주요 결과 — IntentVLA 평균 성공률 45.8%(Table 1). 가장 강력한 feasible history-baseline 대비 17.7 포인트 향상(이전 4프레임 sampling 방식 28.1%에서 증가). ICC-L2는 0.219에서 0.181로 감소해 평균 17.6% 상대 감소를 보였다. 단락 2: Ablation 연구 — 프레임-단일 baseline(Qwen3-VL-GR00T) 65.3%에서, VGGT 현재 프레임만은 64.8%, History fusion만은 69.5%, IntentVLA의 전체 구성이 72.9%로 가장 높다. 단락 3: 표준 벤치마크 전이 — SimplerEnv 평균 72.9%로 Qwen3-VL-GR00T 대비 7.6포인트 향상, LIBERO-Long은 97.4%로 π0.5 대비 상회, RoboCasa GR1에서 평균 57.0%로 best 성능 달성. 단락 4: 추가 벤치마크 및 분석 — Libero에서 Long 시나리오에 대한 의도 일관성 향상, ICC-L2 Tail에서 하위 90%가 일관되게 유지되도록 개선됨.

기술 상세

단락 1: 아키텍처 구조 — Qwen3-VL 백본으로 현재 이미지와 지시를 인코딩하고, frozen VGGT-1B 히스토리 인코더가 최근 관찰을 처리한다. History tokens U˜t(토큰 시퀀스)와 et(단일 요약 토큰)를 생성해 Ct로 묶고, current-context와 History를 게이트된 크로스 어텐션으로 융합한다. Ct는 DiT-based flow-matching head의 조건으로 사용된다. 단락 2: 수학적/알고리즘적 기반 — Ft = qψ(ot, ℓ)로 현재 조건을 얻고, Ut = gφ(hKt)로 히스토리 증거를 얻는다. F′t = Ft + σ(α) MHA(Q=LN(Ft), K=U˜t, V=U˜t). Ct = [F′t; e_tok_t], mt = fφ(ot, ℓ, hKt)로 표현된 short-horizon intent를 Ct에 암시적으로 반영한다. 학습은 L_flow를 최소화하도록 V̂θ를 학습한다: Lflow = E[ || V̂θ(Xs, s | Ct) − (τt − ϵ) ||^2 ]. 단락 3: 차별점 — 프레임-단일 conditioning과 비교해 history tokens를 통한 멀티-프레임 증거를 활용하고, compact intent-evidence token으로 요약 정보를 첨부한다. 이로써 최근 히스토리가 의도 커밋먼트를 유지하도록 돕는다. 단락 4: 구현 및 학습 세부 — 30K 학습 스텝, 16 NVIDIA H100 GPU, 배치 16 per GPU, DeepSpeed ZeRO-2 등 시스템 최적화를 사용한다. 시뮬레이션 데이터셋 AliasBench, SimplerEnv, LIBERO, RoboCasa에서 평가한다.

한계점

IntentVLA는 짧은-horizon 의도에 대해 강력한 커밋먼트를 제공하지만, 긴 시계열 기억이나 외부 이벤트에 대한 기억 재구성, 또는 planning 모듈이 필요한 상황에는 한계가 있다. 또한 현재 평가는 시뮬레이션 기반이며, 물리 로봇 환경에서의 추가 검증이 필요하다.

실무 활용

최근 시각 기록을 활용한 history-conditioned 의도 표현은 프레임 단위 conditioning의 한계를 보완하고, 부분 관찰 환경에서 로봇의 조작 일관성과 안정성을 높인다.

프레임-조건화 VLA를 사용하는 로봇 팔의 멀티-스텝 조작에서 의도 변경 이슈를 줄일 때
환경이 부분적으로 관측 가능하고, 최근 행동 흐름이 향후 행동을 결정하는 경우의 안정성 향상
돋보이는 aliasing 시나리오를 가진 물체 전달/이전 작업에서 chunk 간 일관성 보장
Long-horizon 루틴에서의 로봇 내부 결정 흐름에 최근 기록의 정보를 활용하는 피드백 루프 개선

코드 공개 여부: 공개

코드 저장소 보기

키워드

Vision-Language-Actionpartial observabilityshort-horizon intentshistory-conditionedAliasBenchRoboTwin2flow-matchingVGGT