AAVE와 AE 프롬프트가 MoE 모델의 라우팅과 안전성에 미치는 영향

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

AAVE와 AE 프롬프트 간의 MoE 모델 라우팅 차이가 안전성 필터링과 응답 생성에 미치는 영향을 분석한 실험 결과.

배경

작성자는 AAVE와 AE 프롬프트가 MoE 모델의 라우팅, 사고 과정, 안전성 응답에 미치는 차이를 실험하고, 특히 거부 행동이 약화된 모델에서 나타나는 편향된 동작을 커뮤니티에 공유했다.

의미 / 영향

MoE 모델의 안전성은 단순한 거부 레이어만으로는 보장될 수 없으며, 모델 아키텍처 내부의 라우팅 단계에서 발생하는 언어적 편향을 해결해야 한다. 이는 향후 모델 배포 시 다양한 언어적 레지스터에 대한 안전성 검증이 필수적임을 시사한다.

섹션별 상세

AAVE와 AE 프롬프트가 동일한 의미를 가짐에도 불구하고, 거부 기능이 제거된 모델에서 서로 다른 응답을 생성한다. AE 프롬프트는 완화적인 조언을 제공하는 반면, AAVE 프롬프트는 작전 수행 중심의 구체적인 계획을 제시한다. 이는 모델의 안전성 포지셔닝이 언어적 레지스터에 따라 다르게 작동함을 보여준다.

AAVE 프롬프트 사용 시 'Thinking mode'에서 거부 기능이 제거된 모델이 루프에 빠지며 출력이 AE 대비 2.6배 길어지는 현상이 발생한다. AE 프롬프트는 정상적으로 종료되지만, AAVE 프롬프트는 8192 토큰 제한에 도달할 때까지 시나리오를 반복한다. 이는 특정 모델 변형에서 언어적 스타일에 따른 종료 실패가 발생함을 의미한다.

MoE 모델의 라우팅 텐서 분석 결과, 거부 레이어 이전 단계에서 이미 레지스터에 따른 라우팅 차이가 존재한다. 금융 스트레스나 신체 통증 관련 프롬프트에서 Jensen-Shannon divergence가 각각 0.423, 0.479로 측정되었으며, 이는 언어적 스타일에 따라 모델 내부의 전문가 선택이 완전히 달라짐을 시사한다.