ViT 하위 공간
Vision Transformer 모델 내부의 고차원 벡터 공간에서 특정 데이터 군집이 점유하는 영역이다. 도면과 영상이 서로 다른 하위 공간을 차지한다는 것은 모델이 두 데이터를 통합적으로 처리하지 못함을 의미한다.