멀티모달 회전 위치 임베딩
텍스트와 이미지 등 서로 다른 모달리티의 토큰에 회전 기반의 위치 정보를 부여하는 기법이다. 시간, 높이, 너비 등 다차원 축에 대해 위치를 할당하여 모델이 멀티모달 데이터의 구조적 관계를 더 잘 이해하도록 돕는다.