시각-언어-행동 파이프라인
시각 정보(이미지)와 언어 지시(명령어)를 동시에 입력받아 로봇의 구체적인 물리적 행동을 출력하는 통합 시스템이다. 고수준의 언어 의도를 저수준의 로봇 제어 신호로 연결하는 역할을 한다.