핵심 요약
기존의 로봇 제어 모델은 현재 상황만 보고 즉각 반응하는 방식이라 복잡한 작업에서 실수가 누적되는 한계가 있었다. 이 논문은 로봇이 행동하기 전 미래의 시각적 결과를 미리 예측하고 평가하는 월드 모델을 도입하여, 산업 현장에서 사람의 개입 없이도 정밀하고 안정적인 작업이 가능함을 입증했다.
왜 중요한가
기존의 로봇 제어 모델은 현재 상황만 보고 즉각 반응하는 방식이라 복잡한 작업에서 실수가 누적되는 한계가 있었다. 이 논문은 로봇이 행동하기 전 미래의 시각적 결과를 미리 예측하고 평가하는 월드 모델을 도입하여, 산업 현장에서 사람의 개입 없이도 정밀하고 안정적인 작업이 가능함을 입증했다.
핵심 기여
월드 모델 통합형 VLA 아키텍처
기존 Vision-Language-Action(VLA) 모델에 시각적 잠재 공간에서의 미래 예측이 가능한 월드 모델을 통합하여 k-단계 앞을 내다보는 계획 수립 기능을 구현했다.
PRO(Process-Reward Operator) 스코어링 모듈
생성된 미래 시나리오들에 대해 작업 진행도, 성공 가능성, 위험 요소를 다각도로 평가하여 최적의 행동 궤적을 선택하는 다기준 평가 시스템을 도입했다.
교차 개체(Cross-Embodiment) 계획 능력
계획 수립이 물리적 제어 명령이 아닌 시각적 잠재 공간에서 이루어지므로, 단일 팔, 쌍팔, 휴머노이드 등 서로 다른 로봇 구조에서도 동일한 계획 루프를 재사용할 수 있다.
실제 산업 데이터 기반의 그라운딩
창고 물류 현장에서 수집된 5억 개 이상의 실제 상호작용 데이터를 활용해 월드 모델을 학습시켜, 실험실 환경을 넘어선 실제 현장의 복잡성을 반영했다.
핵심 아이디어 이해하기
기존의 로봇 제어는 현재의 이미지(Embedding)를 입력받아 즉각적인 행동을 출력하는 반응형 방식에 의존했다. 이는 마치 앞만 보고 걷는 것과 같아서, 한 번의 작은 실수가 다음 단계의 실패로 이어지는 연쇄적 오류에 취약하다는 한계가 있었다.
Cortex 2.0은 행동을 결정하기 전, 딥러닝의 잠재 공간(Latent Space) 내에서 여러 가지 미래 시나리오를 시뮬레이션하는 '월드 모델'을 도입했다. 이는 현재 상태에서 가능한 여러 행동 경로를 생성하고, 각 경로가 가져올 시각적 변화를 미리 계산하여 가장 안전하고 효율적인 경로를 선택하는 원리이다.
결과적으로 로봇은 단순히 패턴을 맞추는 반응에서 벗어나, 자신의 행동이 환경에 미칠 영향을 예측하고 계획하는 능력을 갖추게 된다. 이를 통해 물체가 가려지거나 미끄러지는 등의 돌발 상황에서도 스스로 경로를 수정하며 긴 작업 과정을 완수할 수 있게 된다.
관련 Figure

다양한 미래 시나리오 중 보상 점수(Sj)가 가장 높은 궤적(z2)을 선택함으로써, 실패 가능성이 높은 경로를 사전에 배제하는 원리를 보여준다.
PRO 모듈이 여러 후보 궤적의 보상 지형(Loss Landscape)을 분석하여 최적의 시나리오를 선택하는 과정을 시각화한 자료이다.
방법론
Cortex 2.0은 4단계 계층 구조로 설계되었다. 먼저 High-level VLM이 현재 장면을 관찰하여 구조화된 작업 컨텍스트(st)를 생성한다. [이미지 및 텍스트 입력 → VLM 인코딩 → 작업 목표 및 제약 조건 추출] 과정을 통해 로봇이 수행해야 할 세부 목표를 정의한다.
다음으로 Flow Matching 기반의 월드 모델이 k개의 미래 잠재 궤적을 생성한다. [현재 잠재 상태 zt와 컨텍스트 st 입력 → 노이즈로부터 ODE 적분 → 미래 상태 예측] 연산을 수행하여 로봇이 행동했을 때 변화할 미래 모습들을 시각화한다.
생성된 궤적은 PRO(Process-Reward Operator) 모듈에 의해 평가된다. PRO는 진행도(Progress), 위험도(Risk), 종료 가능성(Termination)의 세 가지 헤드를 통해 점수 Sj를 계산한다. [예측된 궤적 입력 → 가치 함수 및 확률 계산 → 가중치 합산 점수 출력] 과정을 거쳐 가장 높은 점수를 받은 궤적이 선택된다.
마지막으로 선택된 궤적 토큰과 이점 지표(It)가 Low-level VLM에 전달되어 실제 로봇의 관절 움직임을 제어하는 Action Chunk를 생성한다. [계획된 궤적 및 상태 입력 → Flow Matching Action Head 연산 → 연속적인 제어 값 출력] 순으로 최종 동작이 실행된다.
관련 Figure

인터넷 규모의 사전 학습 데이터와 실제 로봇 데이터를 결합하는 방식과, 월드 모델이 생성한 미래 궤적을 PRO가 평가하여 VLA 모델에 전달하는 흐름을 명확히 설명한다.
Cortex 2.0의 전체 시스템 개요와 주요 구성 요소인 월드 모델, PRO, VLA 모델의 연결 구조를 보여주는 다이어그램이다.
주요 결과
단일 팔 집기 및 놓기(Pick-and-Place) 실험에서 Cortex 2.0은 0.98의 성공률을 기록하며 기존 SOTA 모델인 π0.5(0.7)를 크게 앞질렀다. 특히 평균 작업 완료 시간이 20초로 가장 짧았으며, 사람의 개입이 전혀 필요하지 않았다.
복잡한 쌍팔 작업인 나사 분류(Screw Sorting)와 신발 상자 포장 풀기(Shoebox Unpacking)에서도 각각 0.98과 0.96의 성공률을 달성했다. 기존 반응형 모델들이 물체 가림이나 미세한 위치 오차로 인해 무한 루프에 빠지거나 복구 불가능한 상태가 된 것과 달리, Cortex 2.0은 모든 시도에서 사람의 도움 없이 작업을 완수했다.
계획 예산(k)에 따른 분석 결과, 시뮬레이션하는 미래 시나리오의 개수가 늘어날수록 성공률이 0.962에서 0.996까지 선형적으로 증가하는 경향을 보였다. 이는 더 많은 미래를 검토할수록 더 정교한 의사결정이 가능함을 시사한다.
관련 Figure

동일한 시작 지점에서도 로봇의 행동에 따라 달라질 수 있는 다양한 미래 상태를 잠재 공간에서 성공적으로 시뮬레이션하고 있음을 증명한다.
월드 모델이 생성한 6개의 서로 다른 미래 예측 궤적(k=1~6)을 시간 순서대로 나열한 이미지이다.
기술 상세
Cortex 2.0 아키텍처는 2B 파라미터 규모의 VLM을 백본으로 사용하며, Flow Matching 기법을 월드 모델과 액션 헤드 모두에 적용했다. 월드 모델은 인터넷 규모의 비디오 데이터로 사전 학습된 후, 30Hz로 수집된 실제 로봇 배포 데이터로 미세 조정되어 물리적 정밀도를 확보했다.
PRO 모듈은 실제 실행된 궤적의 텔레메트리 데이터를 통해 지도 학습 방식으로 사전 학습되며, 학습 과정에서 가중치가 고정(Frozen)된 상태로 계획 루프에 통합된다. 이는 정책 업데이트와 독립적으로 보상 신호를 제공하는 'Knowledge Insulation' 전략을 따른다.
Cross-embodiment 대응을 위해 Action Mapping Module이라는 경량 어댑터를 도입했다. 이는 VLM의 공통 출력을 특정 로봇의 기구학적 제약(Joint limits)과 제어 인터페이스에 맞게 변환하는 역할을 수행하여, 아키텍처 변경 없이 하드웨어만 교체하여 배포할 수 있게 한다.
한계점
논문은 현재 계획 수립 시 고정된 예측 길이(Hwm)와 샘플 수(k)를 사용하고 있다는 점을 한계로 언급했다. 또한 비디오 토큰화와 제어 루프 간의 결합을 더욱 강화하여 더 긴 시간 지평(Long-horizon)에 대한 예측 정확도를 높일 필요가 있다고 밝혔다.
실무 활용
실제 물류 창고 및 제조 현장에서 즉시 적용 가능한 수준의 신뢰성을 보여주며, 다양한 로봇 하드웨어에 유연하게 배포될 수 있는 구조를 갖추고 있다.
- 물류 센터의 비정형 물품 자동 분류 및 포장 시스템
- 정밀한 조작이 필요한 전자 부품 및 나사 조립 공정
- 다양한 형태의 박스 개봉 및 내용물 추출 자동화
- 서로 다른 제조사의 로봇 팔을 혼합 사용하는 통합 제어 환경
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.