시각 언어 모델 및 시각 언어 행동 모델
시각 정보와 언어 정보를 결합하여 상황을 이해(VLM)하거나 실제 행동 명령까지 생성(VLA)하는 차세대 AI 모델이다. 자율주행에서 단순 객체 인식을 넘어 주행 상황의 인과관계를 파악하는 데 사용된다.