시각-언어 내비게이션
자연어 지시문과 시각적 정보를 결합하여 에이전트가 목표 지점까지 이동하는 작업이다. '거실로 가서 냉장고를 찾아라'와 같은 명령을 이해하고 주변 환경을 인식하며 최적의 경로를 결정해야 하는 복합적인 지능이 요구된다.