2025년 Physical AI 총결산: 로봇 지능의 진화와 핵심 논문 10선 리뷰 | AI Trends

엥지유니버스Robotics

2025년 Physical AI 총결산: 로봇 지능의 진화와 핵심 논문 10선 리뷰

구글 RT-1부터 엔비디아 GR00T까지, 지난 2년간 로봇 지능의 패러다임을 바꾼 핵심 논문 10편을 통해 VLA 모델의 발전 과정을 분석한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

로봇 제어는 이제 대규모 데이터 학습을 통한 범용 정책 수립과 온디바이스 최적화를 통한 실시간성 확보라는 두 가지 축을 중심으로 발전하고 있다.

배경

2024년부터 2025년까지 로봇 AI 분야는 정교한 수식 제어에서 데이터 기반의 트랜스포머 모델로 패러다임이 완전히 전환되었다.

대상 독자

로봇 지능 연구자, AI 엔지니어, 로봇 하드웨어 개발자

의미 / 영향

Physical AI 기술은 이제 모델의 크기를 키우는 단계를 넘어 온디바이스 최적화와 물리적 추론 능력을 결합하는 실용화 단계에 진입했다. 이러한 흐름은 공장 자동화를 넘어 가사 로봇 등 인간의 일상 공간에서 자율적으로 작동하는 로봇의 등장을 앞당길 것이다. 특히 시뮬레이션 기반 학습과 월드 모델의 결합은 로봇의 안전성과 작업 효율을 동시에 해결하는 핵심 열쇠가 될 것으로 보인다.

챕터별 상세

00:00

로봇 제어 패러다임의 변화: RT-1에서 RT-2까지

로봇 제어는 과거 정교한 수식과 제어 이론의 영역이었으나 구글의 RT-1 등장 이후 트랜스포머 아키텍처를 도입한 데이터 중심 학습으로 전환되었다. RT-1은 카메라 영상, 관절 움직임, 언어 명령을 토큰화하여 학습함으로써 13만 개의 에피소드를 통해 100가지 이상의 작업을 수행했다. 이어지는 RT-2는 대규모 시각 언어 모델(VLM)에 로봇 행동을 연결하여 인터넷상의 방대한 지식을 로봇 제어에 활용하는 시맨틱 기반 제어를 구현했다.

RT-1은 로봇 데이터를 토큰화하여 언어 모델처럼 학습시킨 초기 모델이며, RT-2는 이를 거대 모델로 확장한 사례이다.

04:18

데이터 스케일링과 범용 정책: Octo와 OpenVLA

Octo는 Open X-Embodiment 데이터셋을 기반으로 수십 종의 로봇 데이터를 통합 학습하여 이질적인 하드웨어 구조에서도 작동하는 범용 정책을 제시했다. OpenVLA는 행동 토큰화 개념을 오픈소스 모델에 이식하여 7B 규모의 모델로 55B 규모인 RT-2-X를 능가하는 성능을 달성했다. 두 모델 모두 특정 로봇에 국한되지 않고 다양한 플랫폼에서 파인튜닝을 통해 즉시 적용 가능한 범용성을 확보했다.

범용 정책(Generalist Policy)은 하나의 모델이 여러 종류의 로봇 하드웨어를 동시에 제어할 수 있는 능력을 의미한다.

07:40

아키텍처의 혁신: Pi0와 CogACT

Pi0는 기존의 확산(Diffusion) 정책 대신 Flow Matching 기반의 연속 행동 생성 방식을 채택하여 고주파 제어와 긴 시퀀스 작업에서 안정성을 높였다. CogACT는 인간의 사고 구조를 모방하여 상위 인지 모듈(System-2)과 하위 행동 모듈(System-1)을 분리하는 아키텍처를 도입했다. 이를 통해 복잡한 언어 이해와 상징적 계획은 거대 모델이 담당하고, 실제 로봇 관절의 미세 제어는 전용 모듈이 수행하도록 설계하여 조작 성공률을 극대화했다.

Flow Matching은 데이터 분포 간의 경로를 직접 학습하여 생성 속도와 품질을 개선하는 최신 생성 기법이다.

14:20

대규모 인프라와 Embodied Reasoning: Gemini와 GR00T

구글 딥마인드의 Gemini Robotics는 TPU 인프라와 멀티모달 추론 능력을 결합하여 로봇이 물리 세계의 상황을 논리적으로 판단하고 행동하게 만들었다. 엔비디아의 GR00T 프로젝트는 Isaac Sim 가상 환경에서 물리 시간을 수천 배 가속하여 수십억 년 분량의 경험을 학습시키는 방식을 사용했다. 특히 엔비디아의 World Foundation Model(WFM)은 로봇이 행동하기 전 결과를 미리 비디오 형태로 예측하는 물리적 상상력 엔진 역할을 수행한다.

Embodied Reasoning은 로봇이 자신의 신체적 한계와 주변 물리 법칙을 이해하며 논리적으로 사고하는 과정을 뜻한다.

18:51

온디바이스 최적화: BitVLA와 PD-VLA

실제 로봇 환경에서의 구동을 위해 BitVLA는 파라미터를 1비트 수준으로 양자화하여 메모리 사용량을 70% 절감하면서도 성능을 유지했다. PD-VLA는 순차적으로 토큰을 생성하던 기존 방식에서 벗어나 병렬 고정점 반복법을 통해 여러 타임스텝의 행동을 동시에 생성하여 디코딩 속도를 획기적으로 높였다. RTC(Real-Time Chunking) 알고리즘은 실행 중인 행동 시퀀스 사이의 공백을 인페인팅 방식으로 메워 멈춤 없는 부드러운 동작을 구현했다.

온디바이스 VLA는 클라우드 연결 없이 로봇 본체의 하드웨어에서 직접 AI 모델을 실행하는 기술이다.

실무 Takeaway

로봇 제어 아키텍처를 인지(System-2)와 행동(System-1)으로 분리하여 설계하면 복잡한 작업의 성공률을 높일 수 있다
Flow Matching 기법을 적용하여 확산 모델보다 빠르고 연속적인 로봇 행동 시퀀스를 생성할 수 있다
BitVLA와 같은 1비트 양자화 기법을 활용하면 거대 VLA 모델을 로봇 본체의 임베디드 시스템에 탑재 가능하다
Action Chunking과 병렬 디코딩을 결합하여 로봇 제어 루프의 지연 시간을 최소화하고 실시간성을 확보해야 한다

언급된 리소스

논문Octo: An Open-Source Generalist Robot Policy

논문OpenVLA: An Open-Source Vision-Language-Action Model

논문Pi0: A Vision-Language-Action Flow Model

논문NVIDIA GR00T-1.5 Model

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2025. 12. 13.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.