핵심 요약
구글 딥마인드와 구글 랩스가 협력하여 텍스트 프롬프트와 이미지로 상호작용 가능한 가상 세계를 구축하는 '프로젝트 지니(Project Genie)'를 공개했다. 이 시스템은 범용 세계 모델인 'Genie 3'를 기반으로 하며, 사용자가 이동함에 따라 실시간으로 환경과 물리 법칙을 생성하는 것이 특징이다. 현재 미국 내 Google AI Ultra 구독자를 대상으로 출시되었으며, 사용자는 세계 스케칭, 탐험, 리믹스 기능을 통해 자신만의 디지털 환경을 설계할 수 있다. 이는 단순한 정적 3D 렌더링을 넘어 행동에 따라 진화하는 동적 환경을 구현함으로써 범용 인공지능(AGI)으로 나아가는 중요한 단계를 제시한다.
배경
생성형 AI의 기본 개념, 프롬프트 엔지니어링 기초
대상 독자
생성형 AI 활용 창작자, 게임 개발자, AI 연구원
의미 / 영향
이 기술은 AI가 물리적 법칙이 작동하는 환경 자체를 이해하고 생성할 수 있음을 보여준다. 이는 로봇 학습을 위한 가상 시뮬레이션 환경 구축 비용을 낮추고 사용자 맞춤형 인터랙티브 미디어 시장을 활성화하는 계기가 된다.
섹션별 상세
Genie 3는 정적인 3D 스냅샷이 아닌, 사용자의 움직임과 상호작용에 맞춰 실시간으로 경로와 환경을 생성하는 범용 세계 모델이다. 이 모델은 물리 법칙과 객체 간의 상호작용을 시뮬레이션하며, 로보틱스나 애니메이션 등 다양한 실제 시나리오를 일관성 있게 구현한다. 구글 딥마인드의 AGI 미션을 지원하기 위해 개발되었으며 복잡한 현실 세계의 다양성을 탐색하는 시스템 구축을 목표로 한다.
프로젝트 지니는 월드 스케칭, 탐험, 리믹스라는 세 가지 핵심 역량을 중심으로 사용자 경험을 설계했다. 사용자는 텍스트 프롬프트나 이미지를 업로드하여 살아있는 환경을 구축하고 캐릭터의 이동 방식과 시점을 자유롭게 정의한다. 생성된 세계는 실시간으로 확장되며 사용자는 카메라 각도를 조절하거나 기존 세계의 프롬프트를 수정하여 새로운 해석을 더하는 리믹스 작업을 수행한다.
기술적 정밀도를 높이기 위해 Nano Banana Pro와 Gemini 모델이 시스템에 통합되었다. Nano Banana Pro는 월드 스케칭 단계에서 사용자가 세계에 진입하기 전 이미지를 미세 조정하고 미리보기를 확인할 수 있는 기능을 지원한다. 사용자는 1인칭 또는 3인칭 시점을 선택하여 경험을 제어하며, 완성된 탐험 과정은 비디오 파일로 다운로드하여 외부로 공유할 수 있다.
현재 이 시스템은 구글 랩스의 실험적 프로토타입으로 운영되며 몇 가지 기술적 개선 과제를 안고 있다. 생성된 세계가 실제 물리 법칙이나 프롬프트를 완벽하게 따르지 않을 수 있으며 캐릭터 제어 시 지연 시간이 발생하기도 한다. 현재 생성 시간은 60초로 제한되어 있으며, 향후 업데이트를 통해 탐험 중 세계가 변하는 이벤트 기능 등을 추가하여 경험을 고도화할 예정이다.
실무 Takeaway
- Genie 3는 정적 이미지 생성을 넘어 사용자 행동에 실시간으로 반응하는 동적 환경 시뮬레이션의 가능성을 입증했다.
- 텍스트와 이미지 기반의 직관적인 인터페이스를 통해 전문 지식 없이도 복잡한 3D 가상 세계를 설계하고 수정하는 환경을 제공한다.
- 세계 모델 기술은 향후 로보틱스 학습을 위한 합성 데이터 생성 및 인터랙티브 엔터테인먼트 분야의 핵심 기술로 전망된다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료