Vision-Language-Action
다중 모달 입력(o, l)을 바탕으로 행동을 생성하는 embodied foundation model 계열로, 시각·언어 표현을 정책 학습의 토대로 삼는 프레임워크다.