시각-언어-행동 모델
시각적 인식, 언어 이해, 그리고 로봇 제어와 같은 행동 생성을 하나의 신경망 아키텍처 내에서 통합하여 처리하는 모델입니다. 복잡한 환경에서 인간의 지시를 수행하는 로봇 에이전트의 핵심 기술입니다.