시각적 상호작용
AI가 시각적 피드백을 실시간으로 받아들이며 환경 내의 객체를 조작하거나 이동하는 능력이다. 정적인 이미지 이해를 넘어 동적인 변화에 대응하는 에이전트의 핵심 역량이다.