핵심 요약
구글 딥마인드는 사용자가 직접 상호작용할 수 있는 가상 환경을 생성하고 탐험하는 연구 프로토타입 '프로젝트 지니(Project Genie)'를 출시했다. 이 시스템은 범용 월드 모델인 'Genie 3'를 기반으로 하며, 정적인 3D 스냅샷이 아닌 사용자의 움직임에 따라 실시간으로 경로와 물리 작용을 생성한다. 현재 미국 내 Google AI Ultra 구독자를 대상으로 공개되었으며, 텍스트 프롬프트나 이미지를 활용해 세계를 설계하고 리믹스하는 기능을 지원한다. 이는 범용 인공지능(AGI)이 복잡한 현실 세계를 이해하고 탐색하도록 돕는 중요한 연구 단계이다.
배경
월드 모델(World Model)의 기본 개념, 생성형 AI 및 프롬프트 엔지니어링 기초
대상 독자
AI 연구자, 게임 개발자, 생성형 미디어 크리에이터
의미 / 영향
이 기술은 게임 엔진 없이도 복잡한 가상 세계를 생성할 수 있게 하여 콘텐츠 제작의 진입장벽을 낮춘다. 또한 로봇 학습을 위한 무한한 가상 훈련 데이터를 생성하는 데 기여하여 AGI 발전을 가속화할 것으로 전망된다.
섹션별 상세
프로젝트 지니는 Genie 3 모델을 통해 실시간으로 변화하는 동적 환경을 구현한다. 기존의 정적인 환경과 달리 사용자가 이동하거나 상호작용할 때마다 다음 경로를 즉석에서 생성하며, 물리 법칙과 객체 간의 상호작용을 시뮬레이션한다. 이러한 일관성 있는 시뮬레이션 능력은 로보틱스 학습부터 애니메이션 제작, 역사적 장소 탐색까지 폭넓은 시나리오에 적용 가능하다.
사용자는 '월드 스케칭(World Sketching)' 기능을 통해 자신만의 세계를 구체적으로 설계한다. 텍스트 프롬프트나 업로드한 이미지를 기반으로 환경을 조성하며, Nano Banana Pro 모델을 통합하여 생성 전 미리보기를 확인하고 세부 사항을 수정하는 정밀 제어를 지원한다. 캐릭터의 이동 방식과 시점 또한 자유롭게 설정할 수 있어 사용자가 진입하기 전 장면을 완벽하게 제어한다.
생성된 세계는 단순히 감상하는 대상이 아니라 실시간으로 탐험하고 리믹스할 수 있는 인터랙티브 공간이다. 사용자는 갤러리에 공개된 다른 사용자의 세계를 기반으로 새로운 해석을 더해 리믹스할 수 있으며, 탐험 과정을 비디오로 저장하여 공유한다. 현재는 생성 시간이 60초로 제한되고 제어 지연 시간이 발생하는 등 초기 단계의 한계가 존재하지만 지속적인 개선이 이루어지고 있다.
실무 Takeaway
- Genie 3 월드 모델을 활용하여 정적 데이터가 아닌 실시간 생성형 인터랙티브 환경 구축이 가능하다.
- Nano Banana Pro와 Gemini 모델의 결합을 통해 텍스트와 이미지 기반의 정밀한 가상 세계 제어 워크플로우를 제공한다.
- AGI 개발을 위해 AI가 현실 세계의 물리 법칙과 동역학을 이해하도록 돕는 시뮬레이션 환경의 중요성이 커지고 있다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료