액션 이미지: 다시점 비디오 생성을 통한 엔드투엔드 정책 학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 로봇 제어 모델은 추상적인 숫자 명령어를 사용하여 비디오 생성 모델의 강력한 시각적 지식을 충분히 활용하지 못했다. 이 논문은 로봇의 행동을 '액션 이미지'라는 시각적 형태로 변환하여, 별도의 제어 모듈 없이도 비디오 모델이 직접 로봇을 움직이게 함으로써 미학습 환경에서의 적응력을 획기적으로 높였다.

왜 중요한가

핵심 기여

픽셀 기반 액션 이미지 표현법 제안

로봇의 7자유도 행동 데이터를 3차원 의미론적 포인트로 변환하고 이를 2D 가우시안 히트맵 형태의 '액션 이미지'로 렌더링하여 비디오 모델이 이해할 수 있는 시각적 언어로 통합했다.

통합 세계 행동 모델(Unified WAM) 구축

대규모 비디오 생성 모델인 Wan 2.2를 기반으로 관측 비디오와 액션 이미지를 동시에 생성하도록 파인튜닝하여, 비디오 예측 능력이 곧 로봇 정책이 되는 단일 백본 구조를 완성했다.

다시점 기하학적 디코딩 알고리즘

생성된 다시점 액션 이미지 히트맵으로부터 레이 캐스팅(Ray Casting)과 시점 매칭을 통해 실제 로봇이 실행 가능한 연속적인 7자유도 제어 값으로 복원하는 정밀한 디코딩 프로세스를 설계했다.

강력한 제로샷 일반화 성능 입증

RLBench 시뮬레이션과 실제 xArm 로봇 환경에서 학습 데이터에 포함되지 않은 물체와 환경에 대해 기존 SOTA 모델들을 상회하는 성공률을 기록하며 시각적 행동 표현의 우수성을 증명했다.

핵심 아이디어 이해하기

기존의 로봇 학습은 이미지(관측)를 입력받아 숫자(행동)를 출력하는 방식이었다. 이는 마치 그림을 보고 수학 문제를 푸는 것과 같아, 비디오 생성 모델이 가진 풍부한 공간 이해력을 활용하기 어려웠다. 본 논문은 로봇의 행동 자체를 이미지 프레임 안에 '그려 넣는' 방식을 택했다. 로봇 팔이 어디로 움직일지를 히트맵 점으로 표시한 '액션 이미지'를 비디오의 일부로 취급하는 것이다.

이러한 접근은 비디오 모델의 Self-Attention 메커니즘이 주변 사물과 로봇의 움직임 사이의 관계를 픽셀 단위에서 직접 계산하게 만든다. 예를 들어 '컵을 집으라'는 명령이 주어지면, 모델은 컵의 위치와 로봇 그리퍼의 히트맵이 겹쳐지는 미래 비디오를 상상하며 자연스럽게 제어 궤적을 생성한다. 이는 추상적인 토큰을 학습하는 것보다 훨씬 직관적이며 데이터 효율적이다.

결과적으로 로봇 제어 문제는 '다음 비디오 프레임을 생성하는 문제'로 치환된다. 다시점(Multiview) 정보를 활용함으로써 단일 시점에서의 가려짐(Occlusion) 문제를 해결하고 3차원 공간상의 정밀한 위치를 파악할 수 있게 되어, 복잡한 조작 작업에서도 높은 정확도를 유지한다.

방법론

로봇의 7자유도 행동 $a_t = [p_t, heta_t, g_t]$ 를 3개의 3차원 포인트(말단 장치 위치, 노멀 벡터, 업 벡터)로 변환한다. [7개의 숫자 입력 → 회전 행렬 연산 및 벡터 합 → 3개의 3D 좌표 출력] 과정을 거쳐 로봇의 자세를 기하학적으로 정의한다. 이후 카메라 파라미터를 사용하여 이 포인트들을 각 시점의 이미지 평면에 투영하고 가우시안 히트맵으로 렌더링한다. 그리퍼의 개폐 상태( $g_t$ )는 블루 채널의 배경 값에 인코딩된다.

학습을 위해 대규모 비디오 생성 모델인 Wan 2.2를 백본으로 사용한다. 관측 비디오 프레임( $V$ )과 액션 이미지 프레임( $A$ )을 시간 축으로 이어 붙여 $[V_{1:T}, A_{1:T}]$ 형태의 단일 시퀀스를 구성한다. [비디오 및 액션 데이터 입력 → 3D-VAE 인코딩 → 시간적 결합 → 잠재 공간 시퀀스 생성] 단계를 거쳐 모델에 입력된다. 다양한 마스킹 전략을 통해 공동 생성, 행동 조건부 비디오 생성, 비디오 기반 행동 라벨링 등 여러 작업을 동시에 학습한다.

추론 시에는 생성된 다시점 히트맵에서 행동을 복원한다. 메인 시점의 히트맵에서 가중 평균을 통해 2D 앵커 포인트를 찾고, 이를 3D 공간으로 투사(Ray Casting)한 뒤 다른 시점의 히트맵과 일치하는 최적의 3D 지점을 선택한다. [2D 히트맵 중심 계산 → 3D 광선 투사 → 타 시점 히트맵 점수 매칭 → 최적 3D 좌표 결정] 과정을 통해 최종적으로 로봇이 실행할 수 있는 7자유도 제어 신호를 얻는다.

주요 결과

RLBench 제로샷 평가에서 '컵 집기', '타겟 도달' 등 5개 작업에 대해 기존 모델(MV-Policy, Cosmos-Policy 등)이 0~20%의 성공률을 보일 때, 본 모델은 평균 40% 이상의 성공률을 기록했다. 특히 '타겟 도달' 작업에서는 60%의 높은 성공률을 보이며 강력한 일반화 능력을 입증했다.

실제 로봇(xArm) 실험에서도 학습 시 보지 못한 물체(보지 못한 장난감, 티슈 등)에 대해 높은 성공률을 보였다. '서랍 닫기' 작업의 경우 45%의 성공률을 기록하며 실세계 환경에서의 적용 가능성을 확인했다. 이는 픽셀 기반의 행동 표현이 환경 변화에 덜 민감하다는 것을 시사한다.

비디오 생성 품질 측면에서도 FVD(Fréchet Video Distance) 점수 143.74를 기록하여 기존 Cosmos-Policy(192.58)나 TesserAct(154.38)보다 우수한 시각적 현실성을 보여주었다. 행동 예측 오차 또한 3D Trajectory Error 기준 $12.2 imes 10^{-3}$ 으로 가장 낮은 수치를 기록했다.

기술 상세

본 연구는 행동을 저차원 벡터가 아닌 고차원 비디오 공간의 일부로 취급하는 'Action as Images' 패러다임을 제시한다. 아키텍처는 Wan 2.2 비디오 백본을 유지하며, 입력 단계에서 관측과 행동의 잠재 토큰(Latent Token)을 결합하는 방식을 사용한다. 카메라 조건화를 위해 Plücker Embedding을 공간 어텐션 레이어 이후에 주입하여 다시점 일관성을 유지한다. 학습 시에는 Flow Matching 목적 함수를 사용하여 마스킹된 토큰의 속도 벡터를 예측하며, 이는 확산 모델의 샘플링 과정을 효율화한다. 특히 7-DoF 행동을 3개의 포인트로 단순화하면서도 기하학적 관계를 보존하여 디코딩 시 정보 손실을 최소화한 점이 기술적 핵심이다.

한계점

현재 시스템은 오픈 루프(Open-loop) 제어 방식으로 동작하여 실시간 피드백에 따른 즉각적인 수정이 어렵다. 또한 확산 모델 기반의 생성 프로세스로 인해 추론 속도가 실시간 제어에 적용하기에는 다소 느리다는 한계가 있으며, 향후 모델 증류(Distillation)를 통한 가속화가 필요하다.

실무 활용

별도의 복잡한 제어 헤드 없이 기존의 강력한 비디오 생성 AI를 로봇 제어에 즉시 활용할 수 있는 프레임워크를 제공한다. 다양한 카메라 시점과 로봇 형태에 유연하게 대응할 수 있어 범용 로봇 운영체제 구축에 유리하다.

미학습 환경에서의 가사 노동 로봇(정리정돈, 서랍 닫기 등) 제어
다시점 카메라가 설치된 스마트 팩토리 내 로봇 팔의 정밀 조작
사람의 행동 비디오로부터 로봇의 행동 궤적을 자동으로 추출하는 라벨링 도구
텍스트 명령 기반의 로봇 작업 시뮬레이션 및 비디오 가이드 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

WAM(세계 행동 모델)Robot-Policy(로봇 정책)Multiview-Generation(다시점 생성)Pixel-Grounded(픽셀 기반 정렬)Zero-shot-Learning(제로샷 학습)7-DoF(7자유도)