Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대형 언어 모델의 안전성 개선은 일반 능력의 저하를 유발할 수 있다. 본 연구는 이를 연속 학습 프레임으로 재해석하고, 안전 업데이트의 방향이 기존 일반 능력의 방향과 충돌하는 문제를 gradient 차원의 간섭으로 설명한다. 직교 그래디언트 투영(OgPSA)은 이 간섭을 줄여 안전성과 일반 능력의 동시 향상을 가능하게 한다.

왜 중요한가

대형 언어 모델의 안전성 개선은 일반 능력의 저하를 유발할 수 있다. 본 연구는 이를 연속 학습 프레임으로 재해석하고, 안전 업데이트의 방향이 기존 일반 능력의 방향과 충돌하는 문제를 gradient 차원의 간섭으로 설명한다. 직교 그래디언트 투영(OgPSA)은 이 간섭을 줄여 안전성과 일반 능력의 동시 향상을 가능하게 한다.

핵심 기여

Safety post-training을 heterogeneous continual learning으로 재정의

안전 업데이트가 서로 다른 데이터 분포와 목표를 유발하는 다중 스테이지에서 일반 능력 방향과의 gradient 간섭으로 alignment tax가 발생함을 체계적으로 고찰한다.

OGPSA 제안: Orthogonal Gradient Projection for Safety Alignment

일반 능력 서브스페이스 S_gen의 저랭크 기저를 추정하고, 안전 업데이트의 gradient를 이 서브스페이스의 직교 여공간에 투영하여 first-order에서의 간섭을 제거하는 가벼운 업데이트 규칙을 제시한다.

First-order preservation에 기초한 feasible-descent 정당화

제곱합 하에서 S_gen의 직교 여공간에 수렴하는 방향이 안전 하강의 최적 방향임을 보이는 이론적 근거(Proposition 4.1)와 그에 따른 알고리즘적 구현을 제시한다.

핵심 아이디어 이해하기

출발점: 사전학습된 대형 언어 모델은 broad한 일반 능력을 보유하지만, safety objective를 포함한 후처리 단계에서의 업데이트는 이 일반 능력의 방향성과 경합할 수 있다. 이를 해결하기 위해 일반 능력에 해당하는 gradient들로 구성된 서브스페이스를 추정하고, 안전 업데이트의 gradient를 이 서브스페이스의 직교 보완 공간으로 투영한다. 그 결과 안전 업데이트의 방향은 서브스페이스와 직교한 방향으로만 작용하게 되어, 첫 차원에서의 간섭을 줄이면서 안전성을 개선한다. 서브스페이스는 주기적으로 갱신되며, 이를 통해 데이터 분포와 목표가 바뀌는 다중 단계에서도 효과를 유지한다. 수식적으로 g_safe는 안전 업데이트의 gradient, g(i)들은 일반 능력 서브스페이스의 기준 gradient이며, S_gen = span{g(1), ..., g(M)}이고, 투영된 안전 그래디언트 g̃_safe = g_safe − U(U^T g_safe)이다.

방법론

개요: OGPSA는 안전 업데이트의 gradient를 S_gen의 직교 보완 공간에 투영하는 plug-and-play 업데이트 규칙이다. 서브스페이스 추정은 M개의 참조 데이터셋에서의 gradient를 구하여 S_gen을 구성하고, 정규 직교 기저 Uτ를 Gram-Schmidt 방식으로 갱신한다. 업데이트는 θ ← θ − η g̃_safe, 여기서 g̃_safe = g_safe − Uτ(U^Tτ g_safe)이다. 서브스페이스는 주기적으로 재생성되며, 참조 데이터의 다양성과 업데이트 주기가 성능에 큰 영향을 준다. 이론적으로는 각 i에 대해 ⟨g(i), ∆θ⟩ = 0을 만족시키는 방향을 찾고, 이는 ∆θ가 S_gen⊥에 있어도 g_safe를 가능한 한 크게 감소시키도록 하는 방향이다.

주요 결과

전체적인 실험은 Llama3.1-8B-Instruct와 Qwen2.5-7B-Instruct를 대상으로 SFT, DPO, SFT-DPO 세 가지 안전 정렬 파이프라인에서 수행되었다. OGPSA는 표 1의 평균 안전-유틸리티 프런티어를 개선하며, Qwen2.5-7B-Instruct의 sequential SFT→DPO 파이프라인에서 Avg. Gain을 33.98%에서 42.74%로, Llama3.1-8B-Instruct에서 19.74%에서 32.98%로 끌어올렸다. 고급 베이스라인(GPM/ST AIR) 대비에서도 우수한 종합 이득을 보이며, I-GCG 등 최적화 기반 Jailbreak에 대한 저항성도 유지되었다. 또한 subspace의 구성(Helpful/Truthful 다중 방향)과 업데이트 주기의 영향이 ablation에서 확인되었다.

기술 상세

구현은 다섯 단계로 구성된다. (1) 참조 데이터셋 D(i)ref에서 각 i에 대해 g(i) = ∇θ L(i)ref을 계산한다. (2) S_gen(θ) = span{g(1), ..., g(M)}를 정의하고, 주기적으로 Gram-Schmidt를 통해 M′ 차원의 정규 직교 기저 Uτ를 얻는다. (3) 안전 gradient g_safe의 투영 방향을 g̃_safe = g_safe − Uτ Uτ^T g_safe로 계산한다. (4) 파라미터 업데이트는 θ ← θ − η g̃_safe를 수행한다. (5) 주기적 서브스페이스 갱신(K 스텝마다) 및 내적 연산으로 O(M′) 복잡도를 유지한다. 이론적으로는 g(i)⋅∆θ가 0이 되도록 하는 first-order 제약을 만족시키는 방향이 최적의 하강 방향임을 보이는(정리) 근거가 제공된다.

한계점

본 방법은 1차 근사에 의존하며, 서브스페이스의 구성은 대표적 일반 능력 데이터의 다양성에 크게 의존한다. 업데이트 주기(K)와 참조 데이터 규모(M′)에 따른 성능 민감도가 존재하고, 대형 모델 확장성에 대한 일반화는 추가 연구가 필요하다. 또한 특정 도메인에서의 일반능력 보존이 모든 벤치마크에 동일하게 보장되지는 않는다.

실무 활용

OGPSA를 SFT, DPO, SFT→DPO에 플러그인처럼 적용해 대규모 재생 없이도 안전성 증가와 일반 능력 보존 간의 균형을 개선할 수 있다.

안전성 강화를 필요로 하는 생산형 LLM 배포 파이프라인에서 일반 능력의 회복 없이 안전성을 향상
다중 안전 목표를 순차적으로 최적화하는 파이프라인에서 gradient 간섭을 줄여 성능 손실 최소화
재생 데이터의 대규모 사용 없이도 데이터 효율적으로 일반 능력 보존

코드 공개 여부: 공개

코드 저장소 보기

키워드

OGPSAOrthogonal Gradient Projectionalignment taxcontinual learningsafety alignmentSFTDPOLLM