구글 Genie3 vs 엔비디아 Cosmos-Predict2.5: Physical AI를 위한 월드 모델 완벽 비교 | AI Trends

엥지유니버스Robotics

구글 Genie3 vs 엔비디아 Cosmos-Predict2.5: Physical AI를 위한 월드 모델 완벽 비교

구글 딥마인드의 Genie3와 엔비디아의 Cosmos-Predict2.5를 통해 Physical AI 구현의 핵심인 월드 모델의 아키텍처와 학습 전략을 비교 분석한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

구글의 Genie3는 행동의 의미를 스스로 학습하는 데 집중하고, 엔비디아의 Cosmos-Predict2.5는 정교한 물리 법칙 기반의 미래 예측 시뮬레이션에 집중한다. 두 모델은 Physical AI 학습 파이프라인의 서로 다른 단계를 보완하며 로봇 지능을 고도화한다.

배경

로봇이 실제 세계에서 안전하게 학습하기 위해 가상 환경과 시뮬레이션의 한계를 극복하려는 시도가 이어지고 있다.

대상 독자

로봇 공학자, AI 연구원, 자율주행 및 물리 AI 개발자

의미 / 영향

로봇 개발 프로세스가 실제 환경에서의 시행착오에서 월드 모델 기반의 가상 학습으로 완전히 전환된다. 이는 로봇의 범용 지능 확보 속도를 가속화하고, 자율주행 및 휴머노이드 로봇의 안전성을 획기적으로 높이는 기반이 된다. 구체적으로는 데이터 수집 비용을 90% 이상 절감하면서도 더 다양한 시나리오에 대한 대응 능력을 갖추게 된다.

챕터별 상세

00:00

Physical AI와 월드 모델의 필연적 결합

로봇이 현실 세계에서 직접 시행착오를 겪으며 학습하는 방식은 비용이 높고 위험하며 속도가 느리다. 이를 해결하기 위해 정교한 물리 엔진 기반의 시뮬레이터가 사용되어 왔으나, 현실의 복잡한 물리 법칙과 예외 상황을 모두 담아내기에는 한계가 있다. World Model은 비디오와 이미지 데이터를 통해 세상의 변화를 통계적, 확률적으로 학습하여 로봇이 직접 경험하지 않고도 세상의 반응을 예측하게 한다. 구글과 엔비디아는 각각 Genie3와 Cosmos-Predict2.5를 통해 이러한 World Model의 새로운 가능성을 제시했다.

03:29

구글 Genie3: 라벨 없는 영상에서 행동의 의미를 추출하는 기술

Genie3는 행동 라벨이 없는 일반 비디오 데이터로부터 로봇의 조작 가능성을 스스로 찾아내는 데 집중한다. Video Tokenizer는 VQ-VAE와 ST-Transformer를 결합하여 영상 프레임을 시간 정보가 포함된 이산 토큰으로 변환한다. Latent Action Model(LAM)은 프레임 간의 변화 원인을 분석하여 8가지 정도의 의미 있는 잠재 행동 코드를 추출하며, 이는 사람이 조이스틱으로 조작하는 것과 같은 효과를 낸다. Dynamics Model은 과거 토큰과 잠재 행동을 입력받아 다음 프레임을 반복적으로 예측하여 사용자가 직접 플레이 가능한 가상 환경을 생성한다.

VQ-VAE는 고차원의 이미지 데이터를 저차원의 이산적인 벡터(토큰)로 압축하여 효율적으로 처리하게 돕는 모델이다.

11:42

엔비디아 Cosmos-Predict2.5: 초고화질 물리 시뮬레이션을 위한 예측 엔진

Cosmos-Predict2.5는 정교한 물리 법칙을 따르는 고화질 미래 영상을 생성하여 로봇의 의사결정을 돕는 시뮬레이터 역할을 수행한다. 엔비디아는 데이터의 양보다 질에 집중하여 미적 품질, 모션, OCR 등 다단계 필터링을 거친 고품질 데이터셋을 구축했다. 아키텍처는 Diffusion Transformer(DiT) 블록을 기반으로 하며, 텍스트와 이미지 정보를 조건으로 입력받아 물리적으로 일관된 미래 궤적을 생성한다. 특히 RL(강화학습)을 적용한 Post-training 단계를 통해 생성된 영상의 물리적 정확도와 인간 선호도를 극대화했다.

Diffusion Transformer(DiT)는 확산 모델의 생성 능력과 트랜스포머의 확장성을 결합하여 고품질 데이터를 생성하는 구조이다.

19:06

Physical AI 학습 파이프라인에서의 역할 분담과 시너지

Genie3와 Cosmos-Predict2.5는 Physical AI 학습의 서로 다른 단계를 담당한다. Genie3는 로봇의 관절 구조나 제어 명령이 정의되지 않은 초기 단계에서 세상이 어떻게 조작될 수 있는지에 대한 행동 표현(Representation)의 토대를 형성한다. 반면 Cosmos-Predict2.5는 구체적인 목표가 주어진 상황에서 선택한 행동이 가져올 미래 결과를 정교하게 예측하고 검증하는 의사결정 단계에 적합하다. 두 모델의 결합은 로봇이 행동의 의미를 이해하고 그 결과를 신뢰도 높게 판단할 수 있는 완전한 학습 파이프라인을 구축하게 한다.

실무 Takeaway

로봇 학습의 비용과 위험을 줄이기 위해 실제 세계의 인과관계를 학습한 World Model 활용이 필수적이다
Genie3는 Latent Action Model을 통해 행동 라벨이 없는 영상 데이터만으로도 로봇의 조작 인터페이스를 스스로 구축한다
Cosmos-Predict2.5는 정교한 데이터 필터링과 Diffusion Transformer 아키텍처를 활용해 물리적으로 일관된 미래 상태를 예측한다
두 모델은 각각 행동의 개념 형성 단계와 의사결정의 결과 검증 단계에서 상호 보완적인 역할을 수행한다

언급된 리소스

논문Genie: Generative Interactive Environments

DemoCosmos-Predict2.5 Project Page

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 12.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.