CLIP 모델의 강건하고 해석 가능한 파인튜닝을 가능하게 하는 Sparse Autoencoder(SAE-FT)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대규모 비전-언어 모델의 파인튜닝은 ID 성능은 높이되 OOD에서의 로버스트니스가 악화되는 트레이드오프를 보인다. SAE-FT는 zero-shot 모델의 해석 가능한 피처 span에 업데이트를 제한하고, 시맨틱 피처의 소거를 방지함으로써 재현가능한 해석과 강건한 일반화를 동시에 달성한다. ImageNet 및 분포시프트 벤치마크에서 경쟁 또는 최상위 성능에 도달하며, 텍스트 사이드 데이터나 프롬프트 주입 없이도 구현 가능하다.

왜 중요한가

대규모 비전-언어 모델의 파인튜닝은 ID 성능은 높이되 OOD에서의 로버스트니스가 악화되는 트레이드오프를 보인다. SAE-FT는 zero-shot 모델의 해석 가능한 피처 span에 업데이트를 제한하고, 시맨틱 피처의 소거를 방지함으로써 재현가능한 해석과 강건한 일반화를 동시에 달성한다. ImageNet 및 분포시프트 벤치마크에서 경쟁 또는 최상위 성능에 도달하며, 텍스트 사이드 데이터나 프롬프트 주입 없이도 구현 가능하다.

핵심 기여

SAE-FT Framework

zero-shot 백본의 해석 가능한 피처 span으로 파인튜닝 변화를 제약하는 새로운 규제 프레임워크를 제시한다. 이를 통해 새 작업에 적응하면서도 기존 시맨틱 콘셉트를 보존하고 재활용한다.

Residual Alignment and Feature Addition Penalties

손실 함수에 L_resid = ||∆r − Wd(∆s)||^2을 도입하고, L_add = λ_resid L_resid + λ_add (1/p)∑(1 − m_k)|s^t_k|로 새 피처 추가를 억제한다. 이는 변화의 방향이 디코더의 해석 가능한 스팬 내에서 발생하도록 강제한다.

Sparse Feature Regularization and Feature Preservation

두 가지 정규화 전략을 도입한다. (i) Sparse Feature Regularization: ||∆s||1를 통해 피처 차원의 희소 변화를 유도하고, (ii) Feature Preservation: zero-shot에서 비활성인 피처의 활성화를 억제하여 관련 피처의 재가중에 집중한다.

Efficient Vision-Only Robust Fine-Tuning

SAE-FT는 SAEs를 고정하고 오로지 vision encoder와 linear head의 학습만으로 작동하며, 텍스트 인코더나 프롬프트 엔지니어링 없이도 강건한 파인튜닝이 가능하다. 추가 계산 오버헤드는 미미하다.

Empirical Robustness and Transferability

ImageNet 및 분포 시프트(IN-R, IN-A, IN-S, IN-V2)에서 state-of-the-art 수준의 강건성을 달성하고, CIFAR-10/100, Caltech-101, STL-10 등 하위 다운스트림 데이터셋으로의 일반화도 우수하다. OpenAI ViT-B/16과 ViT-L/14에서의 성능이 보고된다.

핵심 아이디어 이해하기

시작점: CLIP 계열은 다중 의미의 비전 표현을 생성하며, 다운스트림 작업에 맞추어 파인튜닝하면 일반화가 악화될 수 있다. Linear Representation Hypothesis에 기반해, 개념은 표현 공간의 선형 방향으로 나타난다고 가정하고, 이를 해석 가능한 딕셔너리로 분해해 분석한다.
해결 원리: SAE를 사용해 zero-shot 모델의 해석 가능한 피처 directions를 정의하고, 파인튜닝 업데이트가 이 스팬 안에서만 발생하도록 제약한다. r0 = f0(x), rf_t = f_t(x)로 표현 공간의 차이 ∆r를 만들고, s0 = SAEenc(r0), s_f_t = SAEenc(rf_t)로 희소 피처 activations를 얻어 ∆s = s_f_t − s0를 계산한다. 잔차 정렬(L_resid)과 피처 추가 페널티(L_add)를 통해 semantically meaningful 피처의 변화를 제어한다.
달라지는 점: 기존 L2 정규화는 기하학적 drift를 제한하지만 피처 방향의 구체적 변경을 관리하지 못한다. SAE-FT는 학습된 dictionary의 span 내에서의 업데이트만 허용하고, 필요 시 특정 피처의 재가중에 집중함으로써 해석 가능성과 성능의 균형을 달성한다.
혜택: 피처 재배치가 아닌 재가중에 의해 성능이 개선되며, 해석 가능성이 높아 파인튜닝 과정의 투명성이 증가한다. CIFAR-10/100 등 다운스트림 태스크로의 일반화도 향상된다.

방법론

아키텍처 구성: f0는 고정된 Vision Encoder, f^t_v는 훈련 가능한 Vision Encoder이며, SAEenc은 원본 representation r0 = f0(x)에서 학습된 Top-K Sparse Autoencoder이다. SAE를 고정하고 r0에 대해 s0 = SAEenc(r0), rf_t에 대해 s_f_t = SAEenc(r_f_t)를 얻는다.
학습 절차: ∆r = r_f_t − r0, ∆s = s_f_t − s0, Wd는 SAE 디코더의 가중치. 잔차 정렬 손실 L_resid = ||∆r − Wd(∆s)||^2_2를 정의하고, 피처 추가 패널티 L_add를 도입한다: L_add = λ_resid L_resid + λ_add (1/p) ∑_{k=1}^p (1 − m_k)|s_f_t_k|, 여기 mk = I(s0_k ≠ 0)이다. Top-K SAE인 경우 활성 피처 수 K를 고정하고, 새 피처의 추가를 강하게 억제한다.
최종 손실: L = L_CE + L_add.
정규화 전략: Lsparse = λ_resid L_resid + λ_sparse ||∆s||_1 또는 Ladd를 통한 피처 보존 전략을 사용한다. SAE는 학습 도중 업데이트되지 않으며, 추론 시에도 고정된다.
구현 및 데이터: 이미지-텍스트 쌍의 대규모 사전학습된 CLIP 기반으로 ViT 기반 모델에서 실험; ImageNet 및 iWilds 계열 벤치마크에 대한 평가를 수행한다.
수치화: SOTA 대비 성능 비교, ablation, 일반화, 추론 시간 및 메모리 증가를 보고한다.

주요 결과

Table 3: ViT-B/16 모델의 ImageNet 및 distribution shift 벤치마크에서의 Robust fine-tuning 결과. SAE-FT는 IN 82.9 ±0.1, IN-R 78.5 ±0.1, IN-A 52.6 ±0.4, IN-S 53.4 ±0.0, IN-V2 73.9 ±0.1, Avg 64.6 ±0.1로, 다른 vision-encoder-only 방법들보다 우수하거나 동등한 성능을 달성한다. Zero-shot 68.3, FT 81.3, FLYP 82.6, CAR-FT 81.9, CaRot 83.1, WiSE-FT 81.7, StarFT 82.9.

Table 4: 다운스트림 transfer 벤치마크에서의 일반화 성능. SAE-FT는 Zero-shot 대비 향상폭이 크며 평균 87.8으로 상위권이다. C-10 91.9, C-100 71.2, Caltech-101 89.5, STL-10 98.7, Avg 87.8.

Table 5: iWilds 계열(iWildCam, FMoW)에서의 ID/OOD 성능. iWildCam: ID 49.6 ±0.2, OOD 38.1 ±1.6. FMoW: ID 69.2 ±0.2, OOD 42.8 ±0.5. SAE-FT가 ID와 OOD에서 균형 잡힌 성능을 보인다.

Table 6: 대표적인 representation-regularization baselines와의 비교. L1/L2/PCA와 비교해 SAE-FT가 가장 높은 Avg를 달성하는 경향을 보이며, 64.6의 Avg를 기록한다(13번 표 기준).

Table 7: SAE 피처 statistics 및 FTA. Zero-shot 대비 L2 정규화보다 SAE-FT가 피처 overlap이 커지고 피처 엔트로피가 낮아 피처 재가중이 주로 일어난다. FTA는 SAE-FT이 가장 높은 0.086으로 나타난다.

Table 9: Average feature-task alignment (FTA) on ImageNet test. SAE-FT가 0.086으로 가장 높다.

Table 10: SAE-FT의 계산 오버헤드. standard FT 대비 per-step time 차이는 0.4%, peak 메모리 증가 19.7MB, SAE 모델 19.7MB 등. SAE 트레이닝은 추가적인 디스크 공간 2.5GB가 필요하나 전체 오버헤드는 작다.

Table 15: Describable Textures Dataset(DTD)에서의 파인튜닝 결과. SAE-FT가 L2보다 약간 우수하다(79.20%). Table 16: ViT-L/14 모델에서의 Robust fine-tuning 결과. SAE-FT가 ID에서 86.5, Avg 76.0으로 높은 성능을 보인다. Table 17: SigLIP2 모델에서의 결과. SAE-FT의 Add variant가 가장 높은 Avg를 달성한다.

요약적으로 SAE-FT는 표준 파인튜닝 대비 robust한 성능을 유지·향상시키면서도 피처의 해석 가능성을 유지한다. L2 정규화와의 차별화는 피처 방향의 구체적 제어에 있다. 실험은 ImageNet 계열 벤치마크에서 우수한 결과를 보여주며, downstream transfer에서도 높은 일반화 성능을 확인한다.

기술 상세

전체 아키텍처: f0는 고정된 Vision Encoder, f^t_v는 학습 가능한 Vision Encoder, SAE enc/dec로 구성된 Fixed SAE 모듈을 도입한다. r0 = f0(x), rf_t = f_v^t(x). s0 = SAEenc(r0), s_f_t = SAEenc(rf_t)다.
핵심 수식: ∆s = s_f_t − s0, ∆r = r_f_t − r0. L_resid = ||∆r − Wd(∆s)||^2_2, L_add = λ_resid L_resid + λ_add (1/p) ∑_{k=1}^p (1 − m_k)|s_f_t_k|, mk = I(s0_k ≠ 0). Lsparse = λ_resid L_resid + λ_sparse ||∆s||_1. 총 손실 L = L_CE + L_add.
Top-K SAE: 활성 피처의 수를 고정하고, 새로운 피처의 추가를 억제하여 semantic 정보의 보존을 강제한다.
학습 프로토콜: SAE는 f0에 대해 100 에포크로 학습된 후 고정되고, SAE를 이용한 정규화 항이 최종 손실에 더해진다. 파인튜닝은 f_v^t와 분류기 W만 학습한다.
Regularization 옵션: L2 기반 정규화의 한계점을 보완하기 위해 L_resid/L_add 기반 SAE-FT와, L1 기반의 전통적 Lstd 조합 등의 대안을 비교한다. SAE-FT는 피처 공간의 희소성 및 의미론적 스팬에 초점을 둔다.
파라미터 및 학습 세부: Top-K SAE의 dictionary 크기는 d × 4, K = d/32로 설정, 100 에포크 SAE 학습, 간격 고정. FLYP/CaRot 등의 벤치마크 방법과 비교하며, 실험은 OpenAI ViT-B/16에서 수행된다.

실무 활용

SAE-FT는 텍스트 사이드 데이터가 없는 비전-언어 모델의 강건한 파인튜닝에 활용할 수 있다. 표준 파인튜닝보다 해석 가능성과 일반화 능력을 유지하면서도 분포시프트에 강건한 성능을 보인다.

대규모 비전-언어 모델의 도메인 적응에서 텍스트 프롬프트 엔지니어링 없이 파인튜닝이 필요한 상황
클래스 간 유사도 및 피처 중요도 분석이 필요한 해석 가능한 모델 업데이트
분포시프트가 중요한 응용(의학 영상, 자동 운전 인식 등)에서의 견고성 향상
피처 재가중 기반의 도메인 일반화 연구 및 실험 재현성 강화

코드 공개 여부: 공개

코드 저장소 보기

키워드

vision-language modelsCLIProbust fine-tuningsparse autoencoderrepresentational driftCKAdistribution shifts