핵심 요약
기존의 로봇 학습 모델은 행동 라벨이 없는 일반 비디오 데이터를 활용하는 데 한계가 있었으나, 이 논문은 시각적 예측과 행동 추론을 분리하여 대규모 웹 데이터를 효과적으로 학습할 수 있는 프레임워크를 제시한다. 이를 통해 데이터 수집 비용을 크게 낮추면서도 실제 로봇 조작 작업에서 SOTA 성능을 기록했다.
왜 중요한가
기존의 로봇 학습 모델은 행동 라벨이 없는 일반 비디오 데이터를 활용하는 데 한계가 있었으나, 이 논문은 시각적 예측과 행동 추론을 분리하여 대규모 웹 데이터를 효과적으로 학습할 수 있는 프레임워크를 제시한다. 이를 통해 데이터 수집 비용을 크게 낮추면서도 실제 로봇 조작 작업에서 SOTA 성능을 기록했다.
관련 Figure

인간 비디오 데이터의 비중이 높아질수록 평균 작업 성공 길이가 선형적으로 증가함을 나타낸다. 이는 로봇 데이터가 아닌 일반 영상 데이터가 로봇의 지능 향상에 직접적으로 기여함을 입증하는 핵심 근거이다.
인간 비디오 데이터 비율에 따른 성능 향상을 보여주는 스케일링 법칙 그래프이다.
핵심 기여
DeFI 프레임워크 제안
시각적 전방 역학(Forward Dynamics)과 역방향 역학(Inverse Dynamics) 사전 학습을 분리하여 대규모 무라벨 비디오 데이터를 로봇 정책 학습에 활용할 수 있도록 설계했다.
GFDM 및 GIDM 모듈 도입
비디오 생성을 통해 물리적 변화를 학습하는 GFDM과 무라벨 영상 전환에서 잠재 행동을 추론하는 GIDM을 각각 도입하여 상호 보완적인 지식을 습득하게 했다.
벤치마크 및 실세계 성능 입증
CALVIN 벤치마크에서 평균 작업 길이 4.51을 달성하고, 실제 로봇 환경에서 81.3%의 성공률을 기록하며 기존 VLA 모델들을 크게 상회했다.
핵심 아이디어 이해하기
기존의 Vision-Language-Action(VLA) 모델은 2D 이미지 예측과 3D 행동 예측이라는 서로 다른 목표를 하나의 신경망에서 동시에 학습하려고 시도했다. 이 과정에서 두 목표 간의 충돌이 발생하여 학습이 불안정해지고, 행동 라벨이 없는 대규모 웹 비디오 데이터를 학습에 통합하기 어려운 한계가 있었다.
DeFI는 이 문제를 해결하기 위해 '세상이 어떻게 변할지 예측하는 것(전방 역학)'과 '이 변화를 일으키기 위해 어떤 행동이 필요한지 추론하는 것(역방향 역학)'을 분리한다. 전방 역학 모델은 Transformer 기반의 비디오 생성 기법을 사용하여 다음 장면을 상상하는 법을 배우고, 역방향 역학 모델은 두 장면 사이의 차이를 통해 로봇의 움직임을 벡터화된 잠재 공간(Embedding Space)에 매핑한다.
결과적으로 모델은 행동 라벨이 없는 수많은 인간의 일상 영상을 통해 물리적 법칙을 먼저 배우고, 이후 소량의 로봇 데이터를 통해 이를 실제 제어 명령으로 연결한다. 이는 데이터 효율성을 극대화하며 복잡한 장기 작업에서도 일관된 성능을 유지하게 한다.
방법론
DeFI는 두 단계의 학습 과정을 거친다. 첫 번째 단계인 분리된 사전 학습(Decoupled Pretraining)에서는 General Forward Dynamics Model(GFDM)과 General Inverse Dynamics Model(GIDM)을 독립적으로 학습시킨다. GFDM은 Stable Video Diffusion(SVD) 구조를 채택하여 현재 관찰값과 지시문 l을 입력으로 받아 미래 프레임 z_t:t+H를 생성한다. [현재 이미지와 텍스트 → U-Net/Transformer 노이즈 제거 연산 → 미래 시각 특징 추출 → 물리적 변화 예측]
GIDM은 DINOv2 인코더를 사용하여 추출된 두 프레임 e_t, e_t+n 사이의 관계를 학습한다. VQ-VAE 구조를 활용하여 연속적인 행동 공간을 이산적인 코드북 토큰으로 양자화한다. [두 시점의 이미지 특징 → Spatial-Temporal Transformer 연산 → 양자화된 잠재 행동 코드 생성 → 행동의 의미론적 압축]
두 번째 단계인 결합 미세 조정(Coupled Finetuning)에서는 사전 학습된 두 모델을 통합한다. GFDM은 동결(Frozen)하여 안정적인 시각적 특징을 제공하게 하고, GIDM과 Diffusion 기반 Action Adapter를 함께 최적화하여 최종적인 로봇 제어 명령을 생성한다. 이 과정에서 MLP 프로젝션을 통해 두 모델 간의 표현 공간을 정렬한다.
관련 Figure

전방 역학(GFDM)과 역방향 역학(GIDM)이 각각 비디오 생성과 행동 표현 학습을 담당함을 보여준다. 우측 그래프는 CALVIN, SimplerEnv, 실세계 벤치마크에서 OpenVLA 대비 압도적인 성능 우위를 시각화한다.
DeFI의 전체 프레임워크를 보여주는 다이어그램으로, 인간/로봇 비디오를 통한 분리된 사전 학습과 결합된 미세 조정 과정을 설명한다.
주요 결과
CALVIN ABC-D 벤치마크의 Multi-View 설정에서 DeFI는 평균 작업 길이 4.51을 기록하여 기존 SOTA 모델인 VPP(4.33)와 Seer(4.28)를 능가했다. 특히 데이터 효율성 측면에서 전체 데이터의 10%만 사용했을 때도 VPP 대비 18% 향상된 성능을 보였으며, 약 60%의 데이터만으로도 기존 모델들의 100% 학습 성능을 추월했다.
SimplerEnv-Fractal 벤치마크에서는 51.2%의 성공률을 달성했으며, 실제 Franka Panda 로봇을 이용한 8가지 작업(물 붓기, 병 쌓기 등) 실험에서 평균 81.3%의 성공률을 기록했다. 이는 OpenVLA(43.8%) 대비 약 2배에 가까운 성능 향상이다.
Ablation Study 결과, 인간 비디오 데이터를 포함하여 사전 학습했을 때 작업 성능이 3.92에서 4.51로 크게 향상됨을 확인하여 대규모 이종 데이터 활용의 유효성을 입증했다.
관련 Figure

DeFI가 적은 양의 데이터(10~20%)만으로도 기존 SOTA 모델인 VPP보다 높은 성능을 내며, 데이터가 늘어남에 따라 성능이 지속적으로 우상향함을 보여준다.
데이터 비율에 따른 CALVIN ABC-D 성능 변화 그래프이다.
기술 상세
GFDM은 Stable Video Diffusion 아키텍처를 기반으로 하며, 추론 속도 향상을 위해 단일 단계 노이즈 제거(Single-step denoising)를 수행하여 특징을 추출한다. GIDM은 16레이어의 Transformer 구조를 가지며 768차원의 특징 벡터와 128 크기의 VQ 코드북을 사용한다. Action Adapter는 12레이어의 Diffusion Transformer(DiT)를 사용하여 7차원의 행동 공간을 생성한다. 학습 시에는 NVIDIA H100 GPU 8장을 사용했으며, GFDM 사전 학습에 3일, GIDM에 1.5일이 소요되었다.
관련 Figure

GFDM이 미래 프레임을 예측하고 GIDM이 DINO 인코더를 통해 잠재 행동을 추출하는 메커니즘을 상세히 보여준다. 최종적으로 Action Adapter가 이 정보들을 결합해 실제 행동을 생성하는 흐름을 파악할 수 있다.
Stage I의 분리된 사전 학습과 Stage II의 결합 미세 조정에 대한 상세 아키텍처 구조도이다.
한계점
접촉이 빈번하거나 물체가 밀집된 환경에서는 GFDM이 물리적으로 불가능한 예측을 생성(Hallucination)하는 경우가 발생하며, 이는 전체 실패 사례의 62%를 차지한다. 또한 언어 기반의 상호작용이나 피드백을 명시적으로 모델링하지 않아 복잡한 지시문 이해에 한계가 있을 수 있다.
실무 활용
행동 라벨이 부족한 새로운 로봇 도메인에서 웹상의 방대한 비디오 데이터를 활용해 빠르게 고성능 제어 정책을 구축하는 데 활용 가능하다.
- 데이터가 부족한 특수 목적 로봇의 조작 기술 학습
- 인간의 작업 영상을 보고 로봇이 유사한 동작을 수행하도록 하는 모방 학습 시스템
- 복잡한 장기 시퀀스 작업(예: 요리, 정리)이 필요한 서비스 로봇의 지능 고도화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.