인도 최초의 MoE 추론 모델 Sarvam-30B 및 105B의 거부 메커니즘 제거 실험

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

인도 Sarvam AI의 MoE 추론 모델에서 거부 회로를 제거한 결과, 영어 기반의 거부 방향 제거가 힌디어 등 타 언어의 거부 반응까지 억제함을 확인했다.

배경

작성자는 인도의 다국어 MoE 추론 모델인 Sarvam-30B와 105B 모델에 어블리터레이션 기법을 적용하여 모델의 거부 메커니즘을 분석하고 이를 제거한 버전을 공개했다.

의미 / 영향

이 실험은 LLM의 안전 가드레일이 언어적 표현보다는 더 깊은 추상적 개념 수준에서 작동함을 시사한다. 추론 모델의 이중 거부 회로 발견은 향후 더 정교한 모델 정렬 및 안전성 평가 프레임워크 설계에 중요한 근거가 될 것이다.

커뮤니티 반응

작성자의 실험 결과에 대해 흥미롭다는 반응이 많으며, 특히 거부 메커니즘이 언어에 구애받지 않는다는 'Pre-linguistic' 특성에 주목하고 있습니다.

주요 논점

01찬성다수

거부 회로가 언어 독립적이라는 발견은 모델 정렬 연구에 있어 중요한 통찰을 제공한다.

합의점 vs 논쟁점

합의점

추론 모델의 CoT와 최종 답변 사이에는 논리적 불일치가 발생할 수 있다.
어블리터레이션 기법은 MoE 모델의 특정 행동을 수정하는 데 유효한 수단이다.

논쟁점

모델의 안전 가드레일을 인위적으로 제거하는 행위의 윤리적 측면과 잠재적 위험성에 대한 논의가 있을 수 있다.

실용적 조언

다국어 모델의 안전성을 테스트할 때 영어로 된 거부 벡터를 분석하는 것만으로도 전반적인 가드레일 성능을 유추할 수 있다.
모델이 추론 과정에서는 긍정적이다가 답변에서 거부한다면, 이는 최종 출력 레이어 근처의 거부 회로가 작동한 것일 가능성이 높다.

언급된 도구

Sarvam-30B중립링크

인도 다국어 MoE 추론 모델

Sarvam-105B중립링크

인도 다국어 MoE 추론 모델 (대용량 버전)

섹션별 상세

추론 모델에는 두 개의 독립적인 거부 회로가 존재한다는 사실이 확인됐다. 모델은 사고의 사슬(CoT) 과정에서는 사용자의 요청에 순응하는 방향으로 논리를 전개하지만, 최종 답변 생성 단계에서 별도의 회로가 작동하여 답변을 거부하는 불일치 현상이 나타났다. 이는 추론 단계와 출력 단계의 안전 가드레일이 서로 다르게 작동할 수 있음을 시사한다.

영어 데이터를 통해 계산된 거부 방향(Refusal Direction)을 제거했을 때 힌디어, 말라얄람어, 칸나다어 등 다른 지원 언어에서도 거부 메커니즘이 함께 사라지는 현상이 발견됐다. 이는 모델 내부에서 '거부'라는 개념이 특정 언어에 종속된 것이 아니라 언어를 초월한 공통된 벡터 공간에 존재함을 의미한다. 실험을 통해 하나의 언어에서 찾은 거부 회로가 다국어 모델 전체의 안전 장치에 영향을 미친다는 점이 입증됐다.

Sarvam-30B와 105B라는 대규모 MoE 아키텍처 모델을 대상으로 어블리터레이션을 성공적으로 수행하여 언센서드(Uncensored) 모델을 배포했다. 작성자는 Hugging Face를 통해 수정된 가중치를 공유했으며, 이를 통해 다른 연구자들이 모델의 내부 메커니즘을 직접 검증할 수 있도록 했다. MoE 구조에서도 특정 활성화 방향을 제어함으로써 모델의 행동 편향을 효과적으로 수정할 수 있음이 확인됐다.

실무 Takeaway

추론 모델의 거부 메커니즘은 CoT 단계와 최종 응답 단계에서 이중으로 작동할 수 있으므로 안전성 설계 시 두 단계를 모두 고려해야 한다.
다국어 모델에서 거부 반응은 언어 독립적인 특성을 가지며, 영어 기반의 제어만으로도 타 언어의 안전 가드레일을 해제할 수 있다.
MoE 아키텍처 기반의 대규모 추론 모델에서도 어블리터레이션 기법을 통해 특정 행동 특성을 효과적으로 제거하거나 수정하는 것이 가능하다.

언급된 리소스

문서Uncensoring SarvamAI: Full Writeup

GitHubSarvam-30B Uncensored Model (Hugging Face)

GitHubSarvam-105B Uncensored Model (Hugging Face)