Waymo World Model: 자율주행을 위한 초현실적 생성형 시뮬레이션 모델 공개

핵심 요약

Waymo는 자율주행 시스템의 안전성을 강화하기 위해 초현실적인 가상 환경을 생성하는 Waymo World Model을 공개했다. 이 모델은 Google DeepMind의 Genie 3를 기반으로 구축되었으며, 실제 도로에서 마주하기 힘든 토네이도나 야생 동물 출현과 같은 희귀한 롱테일(Long-tail) 시나리오를 생성한다. 단순한 영상 생성을 넘어 카메라와 라이다(LiDAR) 데이터를 동시에 출력하며, 언어 프롬프트와 주행 입력을 통해 시뮬레이션 환경을 정밀하게 제어할 수 있다. 이를 통해 Waymo는 실제 주행 데이터의 한계를 극복하고 자율주행 AI의 대응 능력을 획기적으로 높이고자 한다.

배경

자율주행 기본 개념, 생성형 AI 및 월드 모델, LiDAR 및 카메라 센서 이해

대상 독자

자율주행 시스템 개발자, 로보틱스 연구원, 생성형 AI 및 월드 모델 관심층

의미 / 영향

자율주행 기술의 핵심이 실제 주행 거리 경쟁에서 가상 환경 시뮬레이션의 정교함과 다양성 경쟁으로 이동하고 있음을 시사한다. 특히 월드 모델을 통한 데이터 증강은 희귀 사고 예방을 위한 필수 기술이 될 것으로 보인다.

섹션별 상세

Waymo World Model은 Google DeepMind의 범용 월드 모델인 Genie 3를 자율주행 도메인에 맞게 최적화했다. 방대한 비디오 데이터로 사전 학습된 Genie의 지식을 활용하여 2D 비디오 정보를 Waymo 하드웨어에 최적화된 3D 라이다(LiDAR) 출력으로 변환한다. 이를 통해 시각적 세부 사항뿐만 아니라 정밀한 깊이 정보를 포함한 하이파이델리티(High-fidelity) 멀티센서 데이터를 생성하여 실제와 유사한 학습 환경을 제공한다.

엔지니어는 주행 동작 제어, 장면 레이아웃 제어, 언어 제어의 세 가지 메커니즘을 통해 시뮬레이션을 정밀하게 조정한다. 주행 동작 제어를 통해 특정 상황에서 만약 다른 경로로 갔다면과 같은 반사실적(Counterfactual) 시나리오를 테스트할 수 있으며, 장면 레이아웃 제어로 도로 구조나 신호 상태를 변경한다. 또한 자연어 프롬프트를 사용하여 시간대, 날씨, 특정 사물을 즉석에서 추가하거나 수정할 수 있다.

일반적인 블랙박스(Dashcam) 영상을 멀티모달 시뮬레이션 환경으로 변환하는 기능을 갖추고 있다. 노르웨이의 설경이나 미국의 국립공원 등 실제 촬영된 영상을 기반으로 Waymo Driver가 해당 환경을 어떻게 인식할지 시뮬레이션하여 사실성을 극대화한다. 또한 모델의 효율적인 변형 버전을 통해 계산 자원을 대폭 절감하면서도 긴 시간 동안의 주행 장면을 안정적인 품질로 생성할 수 있는 확장성을 확보했다.

실무 Takeaway

생성형 AI를 활용해 실제 도로 데이터 수집의 물리적 한계인 롱테일 시나리오 문제를 해결하고 자율주행 안전 벤치마크를 강화함.
카메라 영상과 라이다 데이터를 동시에 생성하는 멀티모달 월드 모델을 통해 자율주행 센서 퓨전 학습의 정확도를 높임.
언어 프롬프트와 주행 제어 입력을 결합한 높은 제어성을 바탕으로 복잡한 What-if 시나리오 테스트를 자동화함.