지역성 주의 집중 비전 트랜스포머 (Locality-Attending Vision Transformer)

왜 중요한가

기존 비전 트랜스포머는 이미지 전체를 보는 데 능숙하지만 미세한 경계를 구분하는 능력은 부족했다. 이 논문은 기존 모델 구조를 거의 바꾸지 않고도 세밀한 공간 정보를 보존하는 기법을 제안하여, 자율주행이나 의료 영상 분석처럼 정밀한 픽셀 단위 이해가 필요한 분야에서 ViT의 활용도를 크게 높였다.

핵심 기여

가우시안 증강 주의 집중(GAug) 메커니즘 제안

학습 가능한 가우시안 커널을 사용하여 어텐션 스코어를 변조함으로써, 각 토큰이 주변 패치에 더 집중하도록 유도하는 명시적인 지역성 편향을 도입했다.

패치 표현 정제(PRR) 기법 도입

분류 헤드 직전에 파라미터가 없는 어텐션 연산을 추가하여, 분류 토큰([CLS])뿐만 아니라 개별 패치 토큰들에도 손실 함수의 그래디언트가 효과적으로 전달되도록 설계했다.

분류 성능 보존 및 세그멘테이션 대폭 향상

ADE20K, PASCAL Context 등 주요 벤치마크에서 ViT-Tiny 기준 최대 6.17%의 mIoU 향상을 달성하면서도 기존 이미지 분류 정확도는 그대로 유지하거나 오히려 개선했다.

핵심 아이디어 이해하기

Transformer의 Self-Attention은 이미지 내 모든 패치 간의 관계를 동일한 비중으로 계산한다. 이는 전체적인 맥락 파악에는 유리하지만, 인접한 픽셀 간의 미세한 차이를 포착해야 하는 세그멘테이션 작업에서는 오히려 국소적인 세부 정보를 희석시키는 결과를 초래한다.

본 논문은 각 패치가 주변 패치들과 더 강하게 상호작용하도록 '가우시안 커널'이라는 수학적 필터를 어텐션 계산 과정에 더했다. 이는 마치 돋보기를 들고 주변을 더 자세히 보게 만드는 것과 같으며, 학습 가능한 파라미터를 통해 이미지의 특성에 맞춰 이 돋보기의 크기와 범위를 스스로 조절하게 만든다.

또한, 기존 ViT가 분류 작업 시 [CLS] 토큰에만 의존하여 개별 패치들의 정보가 무시되던 문제를 해결하기 위해, 마지막 단계에서 모든 패치의 정보를 다시 한번 정제하는 과정을 추가했다. 이를 통해 모델은 전체적인 형체뿐만 아니라 각 부위의 정밀한 위치 정보까지 동시에 학습할 수 있게 된다.

방법론

GAug(Gaussian-Augmented) Attention은 기존 어텐션 로짓(Logit)에 보충 행렬 S를 더하는 방식이다. [쿼리 행렬 q와 키 행렬 k의 내적값] → [루트 d로 나누어 스케일링] → [여기에 가우시안 기반의 S 행렬을 합산] → [Softmax 적용] 순으로 계산되어, 물리적으로 가까운 패치들 간의 연결 강도가 강화된다.

가우시안 커널의 분산(Variance) Σ는 공간 쿼리 행렬 q_sp로부터 예측된다. [q_sp에 학습 가능한 가중치 W_σ를 곱함] → [Sigmoid 함수를 통과시켜 양수 값으로 변환] → [각 패치별 2D 분산 벡터 생성] 과정을 거치며, 이를 통해 각 토큰마다 고유한 수용 영역(Receptive Field)을 동적으로 설정한다.

PRR(Patch Representation Refinement)은 분류 헤드 직전에 적용되는 파라미터 프리(Parameter-free) 어텐션이다. [최종 레이어의 출력 x를 입력으로] → [자기 자신과의 내적을 통한 어텐션 맵 생성] → [가중치 합산 연산 수행] → [정제된 패치 표현 도출] 순으로 작동하며, 이는 Global Average Pooling(GAP)의 한계를 극복하고 각 패치 위치에 직접적인 그래디언트를 전달한다.

주요 결과

ADE20K 데이터셋에서 ViT-Tiny 모델에 LocAt을 적용했을 때 mIoU가 17.30%에서 23.47%로 6.17%p 상승했다. ViT-Base 모델에서도 28.40%에서 32.64%로 4.24%p의 유의미한 성능 향상을 기록했다.

이미지 분류 성능(ImageNet-1K) 측면에서도 LocAtViT-Tiny는 73.94%를 기록하여 기본 ViT(72.39%)보다 1.55%p 높은 정확도를 보였다. 이는 지역성 강화가 세그멘테이션뿐만 아니라 일반적인 특징 추출 능력도 향상시킴을 입증한다.

Ablation Study 결과, GAug와 PRR을 각각 단독으로 사용할 때보다 두 기능을 결합했을 때 가장 높은 성능을 보였다. 특히 PRR은 기존의 GAP 방식보다 세그멘테이션 성능을 크게 앞질렀으며, 이는 패치 토큰의 정보 보존이 핵심임을 보여준다.

실무 활용

기존에 학습된 ViT 모델에 최소한의 구조 변경만으로 적용 가능하며, 특히 세밀한 경계 인식이 필요한 실시간 영상 분석 시스템에 즉시 도입할 수 있는 경량화된 솔루션이다.

자율주행 자동차의 도로 및 장애물 정밀 세그멘테이션
의료 영상(MRI, CT) 내 병변 부위의 정확한 경계 추출
위성 이미지 분석을 통한 건물 및 도로 자동 탐지
모바일 기기용 실시간 배경 제거 및 인물 분리 기능

기술 상세

LocAtViT는 Vanilla ViT 아키텍처를 유지하면서 어텐션 로짓 변조와 최종 토큰 집계 방식만 수정하는 모듈형 설계를 채택했다. 이는 기존의 계층적 구조(Swin, PVT)와 달리 단일 해상도 특징 맵을 유지하면서도 지역성을 확보한다.

GAug의 핵심은 데이터 의존적(Data-dependent) 가우시안 편향이다. 각 패치 p와 t 사이의 유클리드 거리 D_ptm을 기반으로 계산된 가우시안 커널 G_pt에 학습 가능한 스케일링 인자 α를 곱하여 최종 보충 행렬 S를 구성한다.

PRR은 [CLS] 토큰 기반 분류의 고질적인 문제인 '패치 토큰의 그래디언트 소실'을 해결한다. 파라미터 없이 작동하는 Multi-head Self-attention 구조를 분류 직전에 배치함으로써, 역전파 과정에서 손실 값이 모든 패치 위치로 골고루 전달되도록 유도한다.

실험적으로 LocAt은 CLIP과 같은 대규모 파운데이션 모델의 백본으로 사용될 때도 효과적임을 확인했다. 특히 DINO와 같은 자기지도학습(Self-supervised Learning) 프레임워크에서도 성능 향상을 이끌어내어 범용적인 적용 가능성을 보여주었다.

한계점

현재 연구는 자연 이미지 데이터셋에 국한되어 평가되었으며, 의료 영상이나 원격 탐사 영상과 같은 타 도메인에서의 검증은 향후 과제로 남아 있다. 또한, CLIP 수준의 초대형 파운데이션 모델에 대한 적용 실험은 계산 자원의 한계로 인해 수행되지 못했다.

키워드

ViT(비전 트랜스포머)Semantic Segmentation(의미론적 세그멘테이션)Locality Bias(지역성 편향)Gaussian Kernel(가우시안 커널)Attention Modulation(어텐션 변조)