TL;DR
Vision-Language-Action(VLA) 모델은 현재 프레임의 관측과 언어 지시로 바로 실행을 예측하는 경향이 있다. 이러한 프레임 단위 conditioning은 부분 관찰 상황에서 동일한 관측이 서로 다른 다음 Chunk를 필요로 하는 의도 전이를 야기해 실행의 불안정성을 초래한다. AliasBench는 이 짧은-horizon 의도 aliasing을 체계적으로 시험하도록 설계되었으며, IntentVLA는 최근 시각 기록을 이용해 짧은 horizon의 의도를 압축 표현으로 포착하고 이를 바탕으로 Chunk 생성을 조건화함으로써 rollout의 안정성과 성공률을 높인다.
왜 중요한가
Vision-Language-Action(VLA) 모델은 현재 프레임의 관측과 언어 지시로 바로 실행을 예측하는 경향이 있다. 이러한 프레임 단위 conditioning은 부분 관찰 상황에서 동일한 관측이 서로 다른 다음 Chunk를 필요로 하는 의도 전이를 야기해 실행의 불안정성을 초래한다. AliasBench는 이 짧은-horizon 의도 aliasing을 체계적으로 시험하도록 설계되었으며, IntentVLA는 최근 시각 기록을 이용해 짧은 horizon의 의도를 압축 표현으로 포착하고 이를 바탕으로 Chunk 생성을 조건화함으로써 rollout의 안정성과 성공률을 높인다.
핵심 기여
AliasBench: Ambiguity-aware 12-task 벤치마크
RoboTwin2 위에 매칭된 시뮬레이션 학습 데이터와 평가 환경을 구축하여, 프레임 단독 관찰로는 활성화된 짧은-horizon 의도를 구별하기 어려운 4가지 aliasing 패밀리(back-and-forth, crossing-path, bimanual, multi-goal)를 포괄적으로 테스트한다.
IntentVLA: history-conditioned VLA 프레임워크
최근 시각(history) 정보를 고정된 VGGT 기반 인코더로 추출하고, current VLA 컨텍스트와 선택적으로 게이트된 크로스 어텐션으로 융합하여 short-horizon intent 표현(mt)를 생성하고 이를 기반으로 chunk 생성을 조건화한다.
VGGT-1B history encoder 및 토큰 기반 팩토링
history encoder는 camera 토큰과 4개의 register 토큰으로 최근 시점의 시점 변화를 포착하고, 이를 양방향projection으로 차원 공간에 매핑하여 Ut, et를 구성한다. 두 형태의 history 정보(U˜t, et)가 현재 맥락과 융합되어 Ct를 형성한다.
DiT-based flow-matching head를 통한 chunk 생성
Ct를 조건으로 하여 Gaussian 노이즈에서 시작하는 흐름-매칭 방식으로 action chunk를 생성한다. 이는 학습 목표 L_flow에 의해 최적화되며, 테스트 시 Ct는 결정 시점에 고정된다.
실험 전개: AliasBench, SimplerEnv, LIBERO, RoboCasa를 통한 일반화
AliasBench에서의 평균 성공률 45.8%를 달성하고, SimplerEnv(72.9%), LIBERO-Long(97.4%), RoboCasa(GR1)에서의 성능도 개선하며, 프레임 조건화 기반 정책의 롤아웃 안정성과 일관성을 높임.
핵심 아이디어 이해하기
단락 1: 문제 정의 — 프레임 조건화 VLA는 부분 관찰 상황에서 동일 프레임이 서로 다른 다음 조치를 필요로 하는 의도를 암묵적으로 구별하지 못한다. 이로 인해 인접 재계획에서 의도가 바뀌며 불일치한 chunk가 생성될 수 있다. 단락 2: 해결 원리 — 최근 시각(history)을 VGGT-1B로 인코딩하고 이를 current VLA 컨텍스트와 게이트된 크로스-어텐션으로 융합하여 현재의 짧은-horizon continuation에 대한 compact한 의도 표현(mt)을 만든다. mt는 Ct에 포함되어 DiT-based flow-matching head의 조건으로 작동한다. 단락 3: 구현 포인트 — current Ft는 Qwen3-VL 백본으로 얻고, history Ut는 VGGT-1B에서 추출되며 U˜t와 et를 통해 두 가지 형태의 역사 정보를 제공한다. Ct는 Ft와 history 정보를 결합한 후 하나의 요약 토큰(e_tok_t)을 포함해 구성된다. 이 과정을 통해 프레임-기반의 의도 추론 대신 episode의 지역적 커밋먼트를 보존한다. 단락 4: 기대 효과 — ICC-L2를 감소시키고 다수 벤치마크에서 성능을 향상시키며, 특히 crossing-path와 back-and-forth 같은 aliasing 상황에서 유연성이 증가한다. 그러나 장기 메모리나 대규모 큰 시스템에 대한 추가 연구가 필요하며, 본 연구는 시뮬레이션 기반 실험에 국한된다.
방법론
단락 1: 전체 접근 방식 — ot(현재 관측), ℓ(언어 지시), hK_t(최근 시각 히스토리)에서 τ_t를 예측하는 chunk 기반 제어를 목표로 한다. 기존 프레임-조건화 정책은 ot, ℓ로만 작동하는 반면, IntentVLA는 ht를 활용해 zt를 간접적으로 보존한다. 단락 2: 핵심 구성 요소 — Ft = qψ(ot, ℓ)로 현재 컨텍스트를 얻고, Ut = gφ(hK_t)로 history evidence를 얻는다. U˜t = LN(Wh Ut), et = Wee¯t로 차원을 투영해 Ct = [F′t; et]를 형성한다. F′t = Ft + σ(α) MHA(Q=LN(Ft), K=U˜t, V=U˜t)로 history와 현재를 융합한다. 단락 3: 학습 목표 및 구현 — Ct를 조건으로 삼아 Diffusion/Flow-Transform 기반의 action head를 통해 노이즈에서 시작하는 예측 chunk를 denoise한다. 학습 손실은 Lflow로 정의되며, Xs = (1−s)ϵ + sτt에서 V̂θ(Xs, s | Ct)을 τt − ϵ에 맞춘다. 단락 4: 구현 세부사항 — current 프레임은 Qwen3-VL 4B 백본, history 인코더는 frozen VGGT-1B를 사용하며 camera 토큰과 register 토큰 4개를 추출한다. 학습은 30K 단계, 16 GPUs(H100), 배치 사이즈 16 per GPU, DeepSpeed ZeRO-2, gradient clipping, 오버헤드 관리 등으로 수행한다.
관련 Figure

해당 도해는 프레임 단위 conditioning이 aliasing 상황에서 의도 추정을 어떻게 혼란시키는지 시각적으로 보여준다. 방법론 파트의 역사 기반 인코더와 크로스 어텐션의 필요성을 보강하는 근거로 작용한다.
AliasBench의 12개 작업에서 관찰-의도 패턴의 예시를 나열한 도해

현재 프레임의 Ft와 히스토리 Ut를 결합하는 모듈과 Ct 구성, 그리고 DiT-based head를 통한 chunk 생성 흐름을 한눈에 보여준다. 방법론과 구현의 직접적 보강 자료다.
IntentVLA 아키텍처 흐름도
주요 결과
단락 1: AliasBench에서의 주요 결과 — IntentVLA 평균 성공률 45.8%(Table 1). 가장 강력한 feasible history-baseline 대비 17.7 포인트 향상(이전 4프레임 sampling 방식 28.1%에서 증가). ICC-L2는 0.219에서 0.181로 감소해 평균 17.6% 상대 감소를 보였다. 단락 2: Ablation 연구 — 프레임-단일 baseline(Qwen3-VL-GR00T) 65.3%에서, VGGT 현재 프레임만은 64.8%, History fusion만은 69.5%, IntentVLA의 전체 구성이 72.9%로 가장 높다. 단락 3: 표준 벤치마크 전이 — SimplerEnv 평균 72.9%로 Qwen3-VL-GR00T 대비 7.6포인트 향상, LIBERO-Long은 97.4%로 π0.5 대비 상회, RoboCasa GR1에서 평균 57.0%로 best 성능 달성. 단락 4: 추가 벤치마크 및 분석 — Libero에서 Long 시나리오에 대한 의도 일관성 향상, ICC-L2 Tail에서 하위 90%가 일관되게 유지되도록 개선됨.
관련 Figure

이 그림은 현재 프레임의 aliasing이 다양한 의도 간 구분에 얼마나 큰 영향을 미치는지 수치적으로 보여준다. IntentVLA의 필요성을 정량적으로 뒷받침하는 증거다.
Observation-aliasing 진단 그래프: top-k 이웃의 의도 차이 비율과 NN 코사인 거리

Ambiguity 윈도우에서 두 인접 chunk 간의 일관성 지표를 보여주며, IntentVLA가 프레임 단위 정책 대비 일관성을 개선했음을 수치로 확인시킨다.
Inter-chunk consistency(ICC-L2) 및 tail inconsistency 비교 그래프
기술 상세
단락 1: 아키텍처 구조 — Qwen3-VL 백본으로 현재 이미지와 지시를 인코딩하고, frozen VGGT-1B 히스토리 인코더가 최근 관찰을 처리한다. History tokens U˜t(토큰 시퀀스)와 et(단일 요약 토큰)를 생성해 Ct로 묶고, current-context와 History를 게이트된 크로스 어텐션으로 융합한다. Ct는 DiT-based flow-matching head의 조건으로 사용된다. 단락 2: 수학적/알고리즘적 기반 — Ft = qψ(ot, ℓ)로 현재 조건을 얻고, Ut = gφ(hKt)로 히스토리 증거를 얻는다. F′t = Ft + σ(α) MHA(Q=LN(Ft), K=U˜t, V=U˜t). Ct = [F′t; e_tok_t], mt = fφ(ot, ℓ, hKt)로 표현된 short-horizon intent를 Ct에 암시적으로 반영한다. 학습은 L_flow를 최소화하도록 V̂θ를 학습한다: Lflow = E[ || V̂θ(Xs, s | Ct) − (τt − ϵ) ||^2 ]. 단락 3: 차별점 — 프레임-단일 conditioning과 비교해 history tokens를 통한 멀티-프레임 증거를 활용하고, compact intent-evidence token으로 요약 정보를 첨부한다. 이로써 최근 히스토리가 의도 커밋먼트를 유지하도록 돕는다. 단락 4: 구현 및 학습 세부 — 30K 학습 스텝, 16 NVIDIA H100 GPU, 배치 16 per GPU, DeepSpeed ZeRO-2 등 시스템 최적화를 사용한다. 시뮬레이션 데이터셋 AliasBench, SimplerEnv, LIBERO, RoboCasa에서 평가한다.
한계점
IntentVLA는 짧은-horizon 의도에 대해 강력한 커밋먼트를 제공하지만, 긴 시계열 기억이나 외부 이벤트에 대한 기억 재구성, 또는 planning 모듈이 필요한 상황에는 한계가 있다. 또한 현재 평가는 시뮬레이션 기반이며, 물리 로봇 환경에서의 추가 검증이 필요하다.
실무 활용
최근 시각 기록을 활용한 history-conditioned 의도 표현은 프레임 단위 conditioning의 한계를 보완하고, 부분 관찰 환경에서 로봇의 조작 일관성과 안정성을 높인다.
- 프레임-조건화 VLA를 사용하는 로봇 팔의 멀티-스텝 조작에서 의도 변경 이슈를 줄일 때
- 환경이 부분적으로 관측 가능하고, 최근 행동 흐름이 향후 행동을 결정하는 경우의 안정성 향상
- 돋보이는 aliasing 시나리오를 가진 물체 전달/이전 작업에서 chunk 간 일관성 보장
- Long-horizon 루틴에서의 로봇 내부 결정 흐름에 최근 기록의 정보를 활용하는 피드백 루프 개선
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.