시각-언어-행동 모델(vla)이란 무엇인가요?

Question

Accepted Answer

시각 정보(Vision)와 언어 지시(Language)를 입력받아 로봇의 구체적인 동작(Action)을 직접 출력하는 멀티모달 모델이다. 별도의 복잡한 제어 로직 없이 데이터 학습만으로 로봇이 명령을 수행하게 한다. 로봇의 범용성을 높이고 복잡한 작업 수행 능력을 향상시키는 데 중요한 역할을 한다.

vla

비슷한 개념