교차 모달 통합 셀프 어텐션
서로 다른 형태의 데이터(시각, 언어, 물리 신호 등)를 하나의 통합된 공간에서 동시에 처리하여 데이터 간의 상관관계를 학습하는 메커니즘이다. 이를 통해 로봇은 시각 정보와 촉각 정보를 결합하여 더 정밀한 조작을 수행할 수 있다.