딥러닝논문읽기모임Robotics

비디오를 활용한 잠재 액션 사전학습 (LAPA) 논문 리뷰

로봇 액션 라벨 없이 인터넷 영상의 프레임 변화를 잠재 액션 토큰으로 학습하여 로봇 제어 성능과 데이터 효율성을 극대화하는 LAPA 프레임워크를 제안합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

인터넷의 방대한 인간 조작 영상을 잠재 액션 토큰으로 변환하여 사전학습함으로써, 소량의 로봇 데이터만으로도 기존 모델을 능가하는 제어 성능과 뛰어난 전이 능력을 확보할 수 있다.

배경

기존 로봇 학습 모델인 VLA는 고비용의 원격 조작 데이터와 명시적인 액션 라벨에 의존하여 대규모 데이터 확보에 한계가 있었다.

대상 독자

로봇 공학 연구자, AI 모델 개발자, 로봇 파운데이션 모델 및 비지도 학습 관심자

의미 / 영향

LAPA는 로봇 학습의 가장 큰 병목인 데이터 수집 문제를 해결하여 유튜브와 같은 대규모 영상 플랫폼을 로봇의 학습 교재로 전환시킨다. 이는 특정 로봇에 종속되지 않는 범용 로봇 파운데이션 모델의 개발을 가속화하며, 중소 규모의 연구실에서도 적은 비용으로 고성능 로봇 제어 모델을 구축할 수 있는 길을 열어준다.

챕터별 상세

00:00

로봇 학습의 데이터 확장성 문제와 동기

기존 Vision-Language-Action(VLA) 모델은 사람의 원격 조작을 통해 수집된 로봇 액션 라벨에 강하게 의존한다. 이러한 방식은 데이터 수집 비용이 매우 크고 로봇 하드웨어가 변경될 때마다 새로운 데이터를 요구하는 확장성 문제를 야기한다. 반면 인터넷에는 방대한 인간 조작 영상이 존재하지만 로봇 제어에 필요한 명시적인 액션 라벨이 없어 활용이 어려웠다. LAPA는 이러한 라벨 없는 영상을 로봇 학습에 활용하기 위해 프레임 간 변화를 액션으로 정의하는 비지도 학습 방식을 제안한다.

•원격 조작 기반 데이터 수집의 높은 비용과 하드웨어 종속성 문제 지적
•인터넷 규모의 인간 조작 영상을 로봇 학습에 활용해야 할 필요성 강조
•액션 라벨 없이 영상 프레임 변화만으로 동작을 학습하는 LAPA의 핵심 동기

01:10

LAPA 프레임워크의 3단계 구조

LAPA는 크게 세 단계의 시퀀셜한 학습 과정을 거친다. 첫 번째는 영상 프레임 사이의 변화를 이산적인 토큰으로 압축하는 잠재 액션 양자화 단계이다. 두 번째는 VLM이 이미지와 언어 지시를 보고 이 잠재 액션을 예측하도록 사전학습하는 단계이다. 마지막으로 소량의 실제 로봇 데이터를 사용하여 학습된 잠재 액션을 실제 로봇 제어 신호로 매핑하는 파인튜닝 단계를 수행한다. 이 구조를 통해 모델은 일반 영상에서 동작의 본질을 먼저 배우고 로봇 하드웨어에 적응한다.

•잠재 액션 양자화, 사전학습, 파인튜닝으로 이어지는 3단계 아키텍처
•비지도 학습을 통해 인터넷 영상의 동작 정보를 추출하는 파이프라인
•소량의 라벨링 데이터만으로 실제 로봇 제어가 가능하도록 설계

02:37

잠재 액션 양자화 (Latent Action Quantization)

VQ-VAE 아키텍처를 기반으로 두 장의 연속된 영상 프레임 사이의 변화를 잠재 액션(Latent Action) 토큰으로 변환한다. 인코더는 현재 프레임과 미래 프레임을 입력받아 변화량을 계산하고, 이를 코드북 내의 가장 유사한 벡터로 양자화한다. 디코더는 현재 프레임과 양자화된 잠재 액션 토큰을 입력받아 미래 프레임을 재구성하도록 학습된다. 이 과정을 통해 '집기', '옮기기'와 같은 동작들이 코드북 형태의 이산적 토큰으로 정의되며, 이는 로봇 하드웨어와 무관한 범용적 동작 표현이 된다.

•프레임 재구성을 통해 동작의 본질을 코드북 토큰으로 압축
•로봇 관절 구조에 종속되지 않는 범용적인 동작 표현(Latent Action) 생성
•NSVQ 기법을 적용하여 VQ-VAE의 고질적인 코드북 붕괴 문제 해결

VQ-VAE는 연속적인 잠재 공간을 이산적인 코드북 벡터로 매핑하여 데이터를 압축하는 모델이다.

06:17

잠재 액션 사전학습 및 파인튜닝

사전학습 단계에서는 Vision-Language Model(VLM)이 현재 이미지와 텍스트 지시문을 입력받아 앞서 정의된 잠재 액션 토큰을 예측한다. 이때 VLM의 비전 인코더는 고정하고 언어 모델 부분만 학습하여 효율성을 높인다. 이후 파인튜닝 단계에서는 실제 로봇의 액션 라벨이 포함된 소량의 데이터를 사용하여 잠재 액션 예측 헤드를 실제 제어 신호(Delta end-effector 등) 출력 헤드로 교체한다. 결과적으로 모델은 영상에서 배운 풍부한 동작 지식을 실제 로봇 제어에 전이하게 된다.

•VLM을 활용하여 이미지와 텍스트로부터 잠재 액션을 예측하는 사전학습 수행
•소량의 로봇 궤적 데이터를 통한 실제 제어 신호 매핑 및 하드웨어 적응
•기존 VLA 모델 대비 학습 파라미터 업데이트 효율성 극대화

09:22

실험 결과 및 성능 분석

LAPA는 시뮬레이션과 실제 로봇 환경 모두에서 기존 모델들을 압도하는 성능을 보였다. 특히 액션 라벨을 사용하여 사전학습된 OpenVLA 모델과 비교했을 때, LAPA는 라벨 없이 학습했음에도 불구하고 더 높은 성공률을 기록했다. 학습 비용 측면에서는 OpenVLA가 21,500 GPU 시간이 소요된 반면, LAPA는 단 272 GPU 시간 만에 사전학습을 완료하여 약 30배 이상의 효율성을 입증했다. 또한 다양한 로봇 하드웨어 간의 전이 성능(Cross-embodiment)에서도 우수한 결과를 나타냈다.

•라벨 기반 사전학습 모델인 OpenVLA 대비 높은 제어 성공률 달성
•기존 모델 대비 30배 이상 적은 GPU 자원으로 사전학습 완료
•서로 다른 로봇 하드웨어 및 환경에 대한 뛰어난 전이 학습 능력 확인

19:20

인간 조작 영상 활용의 잠재력

로봇 데이터가 전혀 없는 인간 조작 영상(Something-Something V2 데이터셋 등)만으로 사전학습을 진행한 경우에도 LAPA는 강력한 성능을 보여주었다. 실험 결과, 인간 영상으로 학습한 LAPA 모델이 실제 로봇 데이터로 학습한 기존 모델들보다 평균적으로 더 높은 성공률을 기록했다. 이는 로봇 액션 라벨이 없는 일반 유튜브 영상 등이 로봇 파운데이션 모델을 구축하는 데 매우 가치 있는 자원이 될 수 있음을 시사한다. LAPA는 이러한 데이터의 잠재력을 끌어내는 효과적인 방법론임을 입증했다.

•인간 조작 영상만으로도 로봇 제어에 필요한 동작 지식 학습 가능
•로봇 데이터가 부족한 상황에서 인간 영상이 강력한 보완재임을 확인
•웹 스케일의 일반 영상을 활용한 로봇 학습의 새로운 가능성 제시

실무 Takeaway

액션 라벨이 없는 일반 영상에서도 프레임 간 차이를 VQ-VAE로 압축하면 유의미한 동작 토큰(Latent Action)을 추출할 수 있다.
잠재 액션 기반 사전학습은 특정 로봇 하드웨어의 관절 구조에 과적합되지 않아 크로스 임바디먼트(Cross-embodiment) 전이 성능이 뛰어나다.
로봇 액션 라벨 기반 학습 대비 약 30배 적은 컴퓨팅 자원으로도 동등 이상의 성능을 내는 효율적인 학습이 가능하다.
인간의 물체 조작 영상은 로봇 데이터가 부족한 환경에서 로봇의 동작 지능을 높이는 핵심적인 사전학습 데이터로 기능한다.

언급된 리소스

논문Latent Action Pretraining from Videos (LAPA)

GitHubOpenVLA GitHub

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 01. 11.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

비디오를 활용한 잠재 액션 사전학습 (LAPA) 논문 리뷰 | AI Trends