핵심 요약
기존의 시각-언어 모델 어댑터는 이미지와 텍스트를 동일한 방식으로 처리하여 이미지 고유의 공간 정보를 놓치는 한계가 있었다. HeBA는 각 모달리티의 특성에 맞춘 이기종 구조를 도입하여 적은 데이터로도 위성 이미지나 미세 질감 분류에서 압도적인 성능 향상을 증명했다.
왜 중요한가
기존의 시각-언어 모델 어댑터는 이미지와 텍스트를 동일한 방식으로 처리하여 이미지 고유의 공간 정보를 놓치는 한계가 있었다. HeBA는 각 모달리티의 특성에 맞춘 이기종 구조를 도입하여 적은 데이터로도 위성 이미지나 미세 질감 분류에서 압도적인 성능 향상을 증명했다.
핵심 기여
이기종 유도 편향 아키텍처 설계
시각 스트림에는 2D 공간 정보를 보존하는 컨볼루션을, 텍스트 스트림에는 의미적 관계를 유지하는 선형 투영을 적용하여 모달리티별 최적화된 학습 경로를 구축함.
압축형 보틀넥 정규화 도입
기존의 확장형 어댑터와 달리 차원을 1/4로 압축하는 보틀넥 구조(D -> D/4)를 채택하여 모델이 노이즈를 필터링하고 핵심적인 저순위 특징만 학습하도록 강제함.
능동적 그래디언트 초기화 전략
PEFT의 관행인 제로 초기화 대신 Kaiming 초기화를 사용하여 학습 초기 단계부터 충분한 그래디언트 흐름을 확보하고 수렴 속도를 높임.
핵심 아이디어 이해하기
기존의 CLIP 어댑터들은 이미지 패치와 텍스트 단어를 모두 단순한 1차원 벡터 덩어리로 취급했다. 이는 마치 그림을 볼 때 픽셀 간의 위치 관계를 무시하고 무작위로 섞인 점들의 집합으로 보는 것과 같다. 이러한 '구조적 균일성'은 이미지 속의 질감이나 형태 같은 중요한 공간 정보를 잃게 만드는 원인이 된다.
HeBA는 이 문제를 해결하기 위해 이미지 데이터에는 주변 픽셀과의 관계를 파악할 수 있는 2D 컨볼루션 연산을 적용하고, 텍스트 데이터에는 전체적인 문맥을 유지하는 선형 변환을 적용하는 '이기종' 방식을 선택했다. 이는 각 데이터의 본질적인 성격에 맞는 전용 처리 장치를 달아주는 것과 같다.
또한, 정보를 좁은 통로(보틀넥)로 통과시켜 억지로 압축함으로써 불필요한 세부 사항은 버리고 가장 중요한 핵심 정보만 남기도록 유도한다. 결과적으로 적은 양의 데이터만으로도 모델이 새로운 도메인의 특징을 정확하게 포착하며, 보지 못한 데이터에 대해서도 높은 일반화 성능을 유지하게 된다.
방법론
HeBA는 동결된 CLIP 백본의 각 트랜스포머 블록에 병렬로 삽입되는 구조를 가진다. 입력 특징 에 대해 연산을 수행하며, 여기서 는 학습 가능한 동적 스케일링 인자다.
시각 스트림()은 1차원 토큰 시퀀스를 2D 그리드 형태로 재구성한 후 연산을 시작한다. 먼저 컨볼루션을 통해 채널 차원을 로 압축하고, Depthwise Convolution을 적용하여 주변 공간 맥락을 집계한다. [1차원 토큰 → 2D 재구성 및 채널 압축 → 공간적 특징 추출 → 원래 차원 복원 → 공간 정보가 강화된 특징값] 순으로 계산이 이루어진다.
텍스트 스트림()은 공간적 인접성이 중요하지 않으므로 밀집 선형 계층을 사용한다. 행렬로 차원을 로 줄이고 GELU 활성화 함수를 거친 후 행렬로 다시 확장한다. [텍스트 시퀀스 → 선형 압축 → 비선형 변환 → 선형 확장 → 의미적 무결성이 보존된 특징값] 과정을 거쳐 텍스트의 전역적 의미를 학습한다.
최적화 단계에서는 Active Kaiming Initialization을 도입하여 상향 투영 가중치 을 특정 분산을 가진 정규분포로 초기화한다. 이는 학습 초기부터 0이 아닌 그래디언트가 흐르게 하여 수렴을 가속화하며, 백본이 동결되어 있어 기존 지식의 파괴 없이 새로운 도메인에 빠르게 적응할 수 있게 한다.
주요 결과
11개의 벤치마크 데이터셋에서 Base-to-Novel 일반화 성능을 측정한 결과, HeBA는 Novel 클래스 정확도 78.62%, 조화 평균(HM) 81.35%를 기록하며 기존 SOTA 모델인 LwEIB(81.21%)를 능가했다. 특히 위성 이미지 데이터셋인 EuroSAT에서 HM 88.16%를 달성하며 공간 정보 추출의 우수성을 입증했다.
교차 데이터셋(Cross-Dataset) 평가에서는 ImageNet에서 학습된 모델을 추가 튜닝 없이 10개의 다른 데이터셋에 적용했을 때 평균 68.71%의 정확도를 보였다. 이는 기존 방식들보다 높은 수치로, HeBA가 학습한 특징이 도메인을 넘어 범용적으로 전이될 수 있음을 나타낸다.
도메인 일반화 실험에서도 ImageNet-A(적대적 예제) 데이터셋에 대해 51.36%의 정확도를 기록하며 강건함을 보였다. 이는 능동적 초기화 전략이 모델로 하여금 더 견고한 결정 경계를 형성하게 함으로써 분포 외(OOD) 데이터에 대한 저항력을 높였음을 시사한다.
실무 활용
데이터가 부족한 특정 도메인(의료 영상, 위성 사진, 특수 산업 부품 등)에서 CLIP 모델을 빠르게 최적화해야 하는 실무 환경에 매우 유용하다. 특히 이미지의 기하학적 패턴이나 질감이 중요한 작업에서 기존 어댑터보다 높은 정확도를 보장한다.
- 소량의 위성 사진 데이터를 활용한 정밀 토지 피복 및 환경 변화 모니터링 시스템
- 희귀 질환이나 특수 케이스의 의료 영상을 분류하기 위한 소수 샷 진단 보조 도구
- 이커머스에서 제품의 미세한 디자인 패턴이나 질감 차이를 구분하는 고성능 검색 엔진
기술 상세
HeBA는 시각과 언어 모달리티의 구조적 차이를 아키텍처 수준에서 분리(Decoupling)하여 처리한다. 시각 스트림은 2D Spatial Locality를, 텍스트 스트림은 Semantic Globalism을 따르도록 설계되어 기존의 모달리티 불가지론적(Modality-agnostic) 어댑터들이 가졌던 정보 손실 문제를 해결했다.
보틀넥 구조는 단순한 경량화 수단이 아니라 강력한 구조적 정규화 도구로 기능한다. 차원 압축 비율 를 통해 모델의 용량을 제한함으로써, 학습 데이터가 적은 상황에서도 과적합을 방지하고 도메인 시프트와 관련된 핵심적인 저순위(Low-rank) 표현만을 추출하도록 유도한다.
최적화 전략에서는 기존 PEFT의 주류였던 제로 초기화(Zero-initialization)가 유발하는 그래디언트 소실 문제를 지적한다. HeBA는 Kaiming 초기화를 통해 초기 그래디언트 모멘텀을 확보하고, 여기에 Dynamic Slow-Fast Schedule(확률적 스케일링)을 결합하여 학습의 안정성과 속도를 동시에 확보했다.
구현 측면에서는 ViT-B/16 CLIP 백본을 기반으로 하며, AdamW 옵티마이저와 Label Smoothing Cross-Entropy 손실 함수를 사용하여 모델의 예측 확신도를 조절하고 미학습 클래스에 대한 일반화 성능을 극대화했다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료