강화학습
에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 행동을 학습하는 방법이다. 웨이모의 시뮬레이션 환경에서 드라이버 모델이 안전한 주행 전략을 익히는 핵심 메커니즘으로 쓰인다.