핵심 요약
구글의 Genie3는 행동의 의미를 스스로 학습하는 데 집중하고, 엔비디아의 Cosmos-Predict2.5는 정교한 물리 법칙 기반의 미래 예측 시뮬레이션에 집중한다. 두 모델은 Physical AI 학습 파이프라인의 서로 다른 단계를 보완하며 로봇 지능을 고도화한다.
배경
로봇이 실제 세계에서 안전하게 학습하기 위해 가상 환경과 시뮬레이션의 한계를 극복하려는 시도가 이어지고 있다.
대상 독자
로봇 공학자, AI 연구원, 자율주행 및 물리 AI 개발자
의미 / 영향
로봇 개발 프로세스가 실제 환경에서의 시행착오에서 월드 모델 기반의 가상 학습으로 완전히 전환된다. 이는 로봇의 범용 지능 확보 속도를 가속화하고, 자율주행 및 휴머노이드 로봇의 안전성을 획기적으로 높이는 기반이 된다. 구체적으로는 데이터 수집 비용을 90% 이상 절감하면서도 더 다양한 시나리오에 대한 대응 능력을 갖추게 된다.
챕터별 상세
Physical AI와 월드 모델의 필연적 결합
- •현실 세계 학습의 비용, 시간, 위험 문제를 해결하기 위한 대안으로 World Model이 부상했다
- •기존 물리 엔진 기반 시뮬레이터의 한계를 데이터 기반의 확률적 예측 모델로 극복한다
구글 Genie3: 라벨 없는 영상에서 행동의 의미를 추출하는 기술
- •Latent Action Model을 통해 행동 라벨 없이도 영상 속 객체의 조작 방식을 스스로 학습한다
- •ST-Transformer를 활용해 토큰 하나에 시간적 흐름과 상태 정보를 함께 인코딩한다
VQ-VAE는 고차원의 이미지 데이터를 저차원의 이산적인 벡터(토큰)로 압축하여 효율적으로 처리하게 돕는 모델이다.
엔비디아 Cosmos-Predict2.5: 초고화질 물리 시뮬레이션을 위한 예측 엔진
- •다단계 데이터 큐레이션 파이프라인을 통해 물리적으로 일관된 고품질 학습 데이터를 확보했다
- •강화학습 기반의 사후 학습을 통해 생성된 영상의 물리적 신뢰성을 보정하고 성능을 개선했다
Diffusion Transformer(DiT)는 확산 모델의 생성 능력과 트랜스포머의 확장성을 결합하여 고품질 데이터를 생성하는 구조이다.
Physical AI 학습 파이프라인에서의 역할 분담과 시너지
- •Genie3는 행동의 개념 형성을 담당하고 Cosmos-Predict2.5는 행동 결과의 예측 및 검증을 담당한다
- •두 월드 모델의 직렬 연결을 통해 로봇의 범용 지능 학습 효율을 극대화할 수 있다
실무 Takeaway
- 로봇 학습의 비용과 위험을 줄이기 위해 실제 세계의 인과관계를 학습한 World Model 활용이 필수적이다
- Genie3는 Latent Action Model을 통해 행동 라벨이 없는 영상 데이터만으로도 로봇의 조작 인터페이스를 스스로 구축한다
- Cosmos-Predict2.5는 정교한 데이터 필터링과 Diffusion Transformer 아키텍처를 활용해 물리적으로 일관된 미래 상태를 예측한다
- 두 모델은 각각 행동의 개념 형성 단계와 의사결정의 결과 검증 단계에서 상호 보완적인 역할을 수행한다
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.