시각-언어-행동 모델
시각 정보(Vision)와 언어(Language)를 결합하여 로봇의 구체적인 물리적 행동(Action)을 결정하는 멀티모달 AI 모델로 로보틱스의 핵심 기술이다.