핵심 요약
기존 로봇 가치 모델은 정적인 이미지 분석에 의존하여 복잡한 동작의 흐름을 파악하는 데 한계가 있었다. ViVa는 사전 학습된 비디오 생성 모델의 시공간적 지식을 활용해 로봇이 자신의 동작 결과를 미리 예측함으로써, 더 정확한 보상 신호를 생성하고 복잡한 조립 작업의 성공률을 높인다.
왜 중요한가
기존 로봇 가치 모델은 정적인 이미지 분석에 의존하여 복잡한 동작의 흐름을 파악하는 데 한계가 있었다. ViVa는 사전 학습된 비디오 생성 모델의 시공간적 지식을 활용해 로봇이 자신의 동작 결과를 미리 예측함으로써, 더 정확한 보상 신호를 생성하고 복잡한 조립 작업의 성공률을 높인다.
핵심 기여
비디오 생성 모델의 가치 함수 재구성
사전 학습된 비디오 생성 모델을 로봇 강화학습의 가치 함수로 활용하는 새로운 프레임워크를 도입했다. 이를 통해 대규모 비디오 데이터셋에 포함된 물리적 상호작용에 대한 시공간적 사전 지식을 로봇 학습에 직접 주입했다.
미래 고유 수용 감각과 가치의 공동 예측
현재 관측값과 로봇의 상태를 입력받아 미래의 고유 수용 감각(Proprioception)과 스칼라 가치 값을 동시에 예측하는 구조를 설계했다. 가치 추정을 단순한 상태 분류가 아닌 미래 예측 문제로 정의하여 물리적 일관성을 확보했다.
실제 로봇 작업 성능 및 일반화 능력 입증
상자 조립, 셔츠 접기 등 복잡한 실세계 작업에서 기존 VLM 기반 모델 대비 높은 성공률과 처리량을 기록했다. 특히 학습 데이터에 없던 새로운 물체(바지 접기 등)에 대해서도 안정적인 가치 신호를 생성하며 강력한 일반화 성능을 보였다.
관련 Figure

실험에 사용된 작업들의 복잡성과 다단계 특성을 보여준다. 각 작업의 초기 상태, 중간 과정, 최종 성공 상태를 나열하여 ViVa가 해결하고자 하는 문제의 범위를 정의한다.
셔츠 접기, 상자 포장, 종이 정리 등 세 가지 실세계 작업의 단계별 이미지이다.
핵심 아이디어 이해하기
로봇이 작업을 잘 수행하고 있는지 판단하는 가치 추정(Value Estimation)은 본질적으로 '지금 이 행동이 미래에 어떤 결과를 가져올 것인가'를 예측하는 문제이다. 기존의 시각-언어 모델(VLM)은 정적인 이미지-텍스트 쌍으로 학습되어 물체 간의 물리적 상호작용이나 시간에 따른 변화를 이해하는 데 한계가 있었다. 이는 로봇이 실수했을 때 그 영향을 즉각적으로 가치 값에 반영하지 못하는 결과로 이어진다.
ViVa는 이 문제를 해결하기 위해 비디오 생성 모델의 핵심 원리인 '다음 장면 예측'을 활용한다. 비디오 모델은 수많은 영상을 통해 세상이 어떻게 움직이는지 이미 알고 있으므로, 이를 로봇의 가치 함수로 사용하면 로봇이 자신의 팔이 움직인 후의 상태를 미리 '상상'할 수 있게 된다. 즉, 현재의 시각 정보뿐만 아니라 예측된 미래의 물리적 상태를 바탕으로 현재 행동의 가치를 평가하는 것이다.
이러한 방식은 가치 추정을 단순한 패턴 인식이 아닌 물리적 인과관계에 기반하게 만든다. 예를 들어 상자를 닫는 과정에서 모서리가 어긋나면, ViVa는 비디오 생성 모델의 지식을 통해 이것이 실패로 이어질 미래를 예측하고 가치 값을 즉시 떨어뜨린다. 결과적으로 로봇은 더 정교한 피드백을 받으며 복잡한 장기 작업을 안정적으로 수행할 수 있게 된다.
방법론
ViVa는 사전 학습된 비디오 확산 트랜스포머(Diffusion Transformer)인 Wan2.2를 기반 아키텍처로 사용한다. 입력 모달리티를 확장하기 위해 잠재 주입(Latent Injection) 기법을 적용했으며, 모든 입력(이미지, 고유 수용 감각, 스칼라 가치)을 동일한 크기의 잠재 프레임으로 변환하여 시퀀스 형태로 구성한다. 고유 수용 감각 q_t는 반복 패딩(Repeat-padding)을 통해, 스칼라 가치 v_t는 브로드캐스트(Broadcast)를 통해 잠재 공간에 매핑된다.
학습 과정에서는 플로우 매칭(Flow Matching) 목적 함수를 채택했다. 입력 시퀀스는 [공백, 현재 고유 수용 감각, 다중 뷰 이미지]로 구성된 깨끗한 조건부 프레임과 [미래 고유 수용 감각, 현재 가치]로 구성된 노이즈가 섞인 타겟 프레임으로 이루어진다. 모델은 조건부 프레임을 바탕으로 노이즈가 섞인 타겟에서 원래의 물리적 상태와 가치 값을 복원하도록 학습된다.
보상 설계는 시간적 진행도와 최종 성공 여부를 모두 반영한다. 성공한 에피소드에서는 [0, 1) 범위의 정규화된 진행도를 부여하고, 실패한 경우에는 터미널 페널티를 추가하여 [1, 2) 범위로 값을 이동시킨다. 이러한 설계를 통해 성공과 실패 사이의 명확한 마진(1.0)을 확보하여 가치 모델이 진행 상황과 오류를 더 명확히 구분할 수 있도록 유도한다.
관련 Figure

현재의 고유 수용 감각과 가치 값이 어떻게 잠재 프레임으로 변환되어 Wan DiT에 입력되는지 설명한다. 깨끗한 조건부 프레임과 노이즈가 섞인 타겟 프레임을 시퀀스로 구성하여 미래 상태를 복원하는 과정을 시각화했다.
ViVa의 전체 아키텍처 다이어그램으로, 입력 주입 방식과 확산 트랜스포머 구조를 보여준다.
주요 결과
실제 로봇 상자 조립 작업에서 ViVa를 통합한 RECAP 파이프라인은 73%의 성공률을 기록하여, 기존 VLM 기반 가치 모델(58%) 및 모방 학습 모델(53%)을 크게 상회했다. 시간당 작업 처리량(Throughput) 또한 14회로 가장 높은 효율성을 보였다. 정성적 분석 결과, ViVa는 상자 모서리 정렬 불량이나 물체 낙하 위험과 같은 미세한 실행 오류가 발생할 때 가치 값이 급격히 하락하는 민감도를 보여주었다.
Ablation Study를 통해 미래 고유 수용 감각 예측의 중요성을 확인했다. 고유 수용 감각 예측을 제외하고 가치 값만 예측했을 경우, 비정상적인 동작(상자 들기 중 흔들림 등)에 대한 감지 능력이 현저히 떨어졌다. 또한 예측 지평(Prediction Horizon) K=50일 때 시간적 맥락과 예측 안정성 사이의 최적의 균형을 달성함을 입증했다.
효율성 측면에서 ViVa는 8개의 NVIDIA A800 GPU 환경에서 4 GPU·days의 학습 시간을 소모했으며, 추론 속도는 프레임당 0.18초를 기록했다. 이는 기존 VLM 기반 모델(6 GPU·days, 0.32초)보다 학습과 추론 모두에서 더 빠르고 효율적임을 의미한다.
관련 Figure

모서리 정렬 불량이나 낙하 위험 상황에서 ViVa는 가치 값이 급격히 하락하며 오류를 즉각 감지하지만, VLM 기반 모델은 둔감하게 반응함을 보여준다. 이는 ViVa의 미래 예측 기반 가치 추정이 더 신뢰할 수 있음을 입증한다.
상자 조립 작업 중 오류 발생 시 VLM 기반 모델과 ViVa의 가치 추정 변화를 비교한 그래프이다.

새로운 물체에 대해서도 주요 단계(다리 접기, 허리단 접기 등)마다 가치 값이 명확하게 상승하는 것을 확인할 수 있다. 이는 비디오 생성 모델의 시공간적 사전 지식이 강력한 일반화 능력을 제공함을 뒷받침한다.
학습에 포함되지 않은 바지 접기 작업에 대한 ViVa의 일반화 성능 그래프이다.
기술 상세
ViVa의 핵심은 비디오 생성 모델의 시공간적 사전 지식(Spatiotemporal Priors)을 가치 추정에 전이(Transfer)하는 방식에 있다. Wan2.2의 DiT 구조를 유지하면서, 이질적인 데이터(14차원 벡터인 고유 수용 감각 등)를 이미지와 동일한 형태의 잠재 텐서로 변환하여 입력하는 아키텍처를 제안했다. 이는 모델의 내부 구조를 변경하지 않고도 다중 모달리티를 통합할 수 있게 한다.
학습 시 사용된 플로우 매칭 공식은 z_tau = (1 - tau)z_0 + tau*z_1 경로를 따라 일정한 속도 z_1 - z_0를 예측하도록 설계되었다. 여기서 z_0는 실제 데이터, z_1은 가우시안 노이즈이다. 가치 예측 손실과 고유 수용 감각 예측 손실에 각각 가중치(lambda_val=0.5, lambda_prop=1.0)를 부여하여 공동 최적화를 수행했다.
이 모델은 VLM 기반 모델이 겪는 '정적 특징에 대한 과적합' 문제를 해결한다. VLM은 특정 시각적 패턴과 성공을 단순히 연관 짓는 경향이 있는 반면, ViVa는 미래의 물리적 변화를 함께 예측해야 하므로 로봇의 동역학(Dynamics)을 내재적으로 학습하게 된다. 이러한 특성은 특히 분포 외(Out-of-distribution) 데이터인 새로운 물체에 대해서도 물리적으로 타당한 가치 평가를 가능하게 하는 근거가 된다.
한계점
긴 롤아웃 주기와 하드웨어 비용 문제로 인해 대규모 실로봇 실험은 상자 조립 작업에 집중되었으며, 다른 작업들에 대한 대규모 통계적 검증은 향후 과제로 남겨두었다. 또한 현재 모델은 고정된 예측 지평(K=50)을 사용하므로, 작업의 성격에 따라 가변적인 지평을 적용하는 연구가 필요할 수 있다.
실무 활용
ViVa는 실세계 로봇 조작 작업에서 정교한 보상 신호를 제공하는 가치 함수로 즉시 활용 가능하다. 특히 긴 단계가 필요한 조립이나 정밀한 제어가 필요한 작업에서 강화학습의 효율성을 높이는 데 기여할 수 있다.
- 복잡한 다단계 제조 공정(상자 조립, 부품 끼우기)에서의 로봇 강화학습 가이드
- 의류나 종이와 같이 변형이 심한 물체를 다루는 가사 지원 로봇의 동작 최적화
- 학습되지 않은 새로운 물체에 대한 로봇의 제로샷(Zero-shot) 작업 수행 능력 평가
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.