본문으로 건너뛰기
MMaDA-VLA: 통합 멀티모달 지시 및 생성을 지원하는 대규모 확산 시각-언어-행동 모델 | AI Trends