SEM: 시각-언어 모델의 사후 편향 제거를 위한 희소 임베딩 변조

CLIP과 같은 시각-언어 모델은 학습 데이터에 포함된 사회적 편견을 그대로 학습하여 특정 직업과 성별을 잘못 연결하는 등의 문제를 일으킨다. 이 논문은 모델을 재학습시키지 않고도 임베딩 공간에서 편향된 정보만 정밀하게 분리해 제거하는 기술을 구축하여 AI의 공정성과 신뢰성을 높인다.

왜 중요한가

핵심 기여

희소 오토인코더(SAE) 기반의 사후 편향 제거 프레임워크 구축

밀집된 CLIP 임베딩을 고차원의 희소 잠재 공간으로 분해하여 편향과 관련된 특징을 개별 뉴런 단위로 분리하고 제어할 수 있는 SEM 프레임워크를 설계했다.

세 가지 변조 전략(SEMi, SEMb, SEMbi) 설계

편향 정보를 모르는 상태(Bias-Agnostic)부터 구체적인 편향 속성을 아는 상태(Bias-Aware)까지 가용한 정보 수준에 따라 유연하게 적용 가능한 세 가지 변조 알고리즘을 개발했다.

최악의 그룹 정확도(Worst-Group Accuracy) 대폭 향상 입증

Waterbirds 및 CelebA 데이터셋 실험에서 기존 선형 투영 방식보다 월등한 성능을 기록했으며, 특히 가장 편향이 심한 하위 그룹의 정확도를 최대 28%p 향상시켰다.

핵심 아이디어 이해하기

Transformer 기반의 CLIP 모델은 이미지와 텍스트를 하나의 임베딩 공간에 매핑하지만, 이 공간에서는 핵심 의미와 사회적 편향이 실타래처럼 밀접하게 엉켜(Entangled) 있다. 기존의 선형 투영 방식은 특정 방향의 벡터를 일괄적으로 제거하여 중요한 정보까지 손실시키는 한계가 있었다.

본 연구는 희소 오토인코더(SAE)를 사용하여 이 실타래를 푼다. SAE는 밀집된 벡터를 수만 개의 독립적인 뉴런으로 확장하는데, 이때 각 뉴런은 '의사', '가운', '남성성' 등 매우 구체적이고 독립적인 특징을 담당하게 된다. 이렇게 개념이 분리(Disentangled)되면, 전체 벡터를 건드리지 않고도 편향을 일으키는 특정 뉴런의 활성화 값만 정밀하게 조정할 수 있다.

결과적으로 모델은 '의사'라는 핵심 의미는 유지하면서도 특정 성별이나 인종에 대한 고정관념만 선택적으로 지울 수 있게 된다. 이는 재학습 없이도 모델의 공정성을 획기적으로 높이는 비선형적이고 정밀한 개입을 가능하게 한다.

방법론

전체 프로세스는 Scoring과 Steering의 두 단계로 구성된다. 먼저 텍스트 인코더의 출력인 밀집 임베딩 z를 입력으로 받아 SAE 인코더 $W_e$ 를 통과시켜 희소 잠재 표현 h를 얻는다. [z 입력 → $ReLU(W_e(z - b_{pre}))$ 연산 → 희소 벡터 h 출력 → 각 차원이 독립적인 개념을 나타내는 고차원 표현]

Scoring 단계에서는 각 뉴런의 내용 관련성( $S_{concept}$ )과 편향 민감도( $S_{bias}$ )를 계산한다. 중립적인 문장 세트( $P_{div}$ )와 편향된 문장 세트( $P_{bias}$ )를 SAE에 통과시켜 얻은 활성화 분포를 기준으로, 현재 입력 쿼리에서 어떤 뉴런이 의미적으로 중요한지 또는 편향에 치우쳐 있는지를 백분위 순위로 수치화한다.

Steering 단계에서는 계산된 점수를 바탕으로 변조 계수 M을 생성하여 잠재 벡터 h를 수정한다. [h와 M 입력 → $h \odot M + (1 - M) \odot m_{div}$ 연산 → $h_{debias}$ 출력 → 편향 뉴런은 억제되고 내용 뉴런은 강조된 수정된 잠재 벡터] 마지막으로 SAE 디코더 $W_d$ 를 통해 다시 원래 차원의 임베딩 공간으로 복원한다.

주요 결과

FairFace와 UTKFace 데이터셋을 이용한 검색 실험에서 SEMi(Bias-Agnostic) 버전은 기존의 RoboShot보다 우수한 성능을 기록했다. 특히 ViT-B/16 기반 FairFace 인종 편향 실험에서 KL Divergence를 0.237에서 0.170으로 낮추며 상태 최신(SOTA) 공정성을 달성했다.

제로샷 분류 작업인 Waterbirds 데이터셋(ViT-L/14)에서 SEMbi는 최악의 그룹 정확도(WG)를 0.396에서 0.676으로 28%p 향상시키는 성과를 거두었다. 이는 기존 선형 투영 방식인 ORTH-PROJ나 RoboShot이 거의 개선을 이루지 못한 것과 대조적이다.

Ablation Study 결과, 내용 강조 항( $+S_{concept}$ )이 성능 붕괴를 막는 데 핵심적인 역할을 함이 확인됐다. 또한 SEM은 BendVLM과 같은 기존 방식과 결합했을 때 시너지 효과를 내어 28개 지표 중 24개에서 최고 성능을 갱신했다.

실무 활용

이미 학습된 CLIP 모델을 그대로 사용하면서 검색이나 분류 시스템의 편향성만 제거하고 싶을 때 즉시 적용 가능한 제로샷 솔루션이다. 추가적인 모델 학습이나 레이블링된 이미지 데이터 없이 텍스트 임베딩 변조만으로 작동한다.

성별/인종 편향이 배제된 AI 이미지 검색 엔진 구축
특정 배경(예: 물가)에 의존하지 않는 객체 분류기 성능 개선
사회적 고정관념을 최소화해야 하는 멀티모달 추천 시스템

기술 상세

본 연구는 Matryoshka Sparse Autoencoder(MSAE) 아키텍처를 채택하여 다양한 입도(Granularity)에서 특징을 추출한다. 16,384 차원의 잠재 공간을 사용하며, CC12M 데이터셋의 850만 개 캡션으로 학습되었다.

핵심 메커니즘은 뉴런 단위의 비선형 개입이다. 기존의 Orthogonal Projection 방식이 임베딩 공간 전체에서 하나의 선형 방향(Subspace)을 제거하는 것과 달리, SEM은 SAE를 통해 분해된 수만 개의 특징 중 편향과 관련된 특정 뉴런들만 선택적으로 감쇠(Attenuation)시킨다.

Scoring 함수는 중립 프롬프트 세트 $P_{div}$ 에 대한 활성화 분포를 기준으로 쿼리 q의 활성화 $h_q(j)$ 가 상위 몇 %에 해당하는지를 계산하는 Percentile Rank 방식을 사용한다. 이는 뉴런의 절대적인 활성화 값에 의존하지 않고 상대적인 중요도를 파악하게 해준다.

Steering 과정에서는 $h_{debias} = h_q \odot M + (1 - M) \odot m_{div}$ 식을 통해 변조를 수행한다. 여기서 $m_{div}$ 는 중립적인 활성화 벡터의 중앙값으로, 편향된 뉴런의 활성화를 단순히 0으로 만드는 대신 중립적인 상태로 대체하여 정보 손실을 최소화한다.

키워드

CLIP(대조적 시각-언어 사전 학습)SAE(희소 오토인코더)Debiasing(편향 제거)Disentanglement(개념 분리)Zero-shot(제로샷)

SEM: 시각-언어 모델의 사후 편향 제거를 위한 희소 임베딩 변조

왜 중요한가

핵심 기여

희소 오토인코더(SAE) 기반의 사후 편향 제거 프레임워크 구축

세 가지 변조 전략(SEMi, SEMb, SEMbi) 설계

최악의 그룹 정확도(Worst-Group Accuracy) 대폭 향상 입증

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

성별/인종 편향이 배제된 AI 이미지 검색 엔진 구축
특정 배경(예: 물가)에 의존하지 않는 객체 분류기 성능 개선
사회적 고정관념을 최소화해야 하는 멀티모달 추천 시스템

기술 상세

키워드

CLIP(대조적 시각-언어 사전 학습)SAE(희소 오토인코더)Debiasing(편향 제거)Disentanglement(개념 분리)Zero-shot(제로샷)

SEM: 시각-언어 모델의 사후 편향 제거를 위한 희소 임베딩 변조

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

키워드

SEM: 시각-언어 모델의 사후 편향 제거를 위한 희소 임베딩 변조

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드