지역성
이미지에서 인접한 픽셀들이 서로 밀접한 관련이 있다는 특성이다. CNN은 작은 커널을 사용하여 이 지역적 특징을 추출하는 데 최적화되어 있으나, ViT는 Self-Attention을 통해 이미지 전체의 전역적 관계를 먼저 파악하려는 경향이 있다.