Prompt–Activation Duality: Attention-Level Interventions를 통한 Activation Steering 개선

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대형 언어 모델의 activation steering은 추론 시 내부 표현에 방향을 더해 행동을 제어한다. 그러나 stateful 대화에서 KV-cache 오염으로 인해 지역적 perturbation이 누적되어 coherence가 저하될 수 있다. GCAD는 system-prompt에 의한 self-attention 신호를 추출하고 토큰 단위 게이팅으로 재주입하여 이 문제를 완화하고, 15개 trait의 코히어런스 드리프트를 대폭 줄이며 turn-10에서 trait 표현을 크게 향상시킨다.

왜 중요한가

대형 언어 모델의 activation steering은 추론 시 내부 표현에 방향을 더해 행동을 제어한다. 그러나 stateful 대화에서 KV-cache 오염으로 인해 지역적 perturbation이 누적되어 coherence가 저하될 수 있다. GCAD는 system-prompt에 의한 self-attention 신호를 추출하고 토큰 단위 게이팅으로 재주입하여 이 문제를 완화하고, 15개 trait의 코히어런스 드리프트를 대폭 줄이며 turn-10에서 trait 표현을 크게 향상시킨다.

핵심 기여

KV-cache contamination의 실용적 실패 모드 식별

Residual-stream activation steering은 단발성에서 효과적일 수 있지만 다턴 대화에서 생성 토큰이 KV-cache에 반영되어 이후 토큰에 누적적으로 영향을 미치는 현상(KV-cache contamination)을 확인했다.

GCAD 제안

Gated Cropped Attention-Delta steering은 attention 레벨에서 신호를 추출하고 시스템 프롬프트의 source-token만 남기는 Cropping과 토큰 단위 게이팅을 결합하여, 응답 토큰에 대한 응답-단계의 재적재를 줄이고 프롬프트-매개 경로를 통한 제어를 유지한다.

장기 대화에서의 안정성 향상

GCAD는 trait 표현을 유지하면서도 멀티턴 coherence collapse를 크게 감소시켰다. 예를 들어 15-trait 평균에서 coherence drift가 -18.6에서 -1.9로 감소하고 turn-10에서 trait expression이 78.0에서 93.1로 상승했다.

attention-pathway의 확산 신호를 이용한 분리된 제어

persona 벡터의 주된 trait 신호는 attention 경로를 통해 전달되며, 시스템 프롬프트의 영향이 누적된다는 점을 확인하고, 이를 cropped attention-Delta로 집중시켜 설계의 신뢰성을 높였다.

Cropping과 gating의 보완적 효과

Cropping(P2)과 gating(P3)은 상호 보완적이며, 두 요소를 모두 제거하면 trait 표현이 크게 약화되거나 코히어런스가 악화된다. MLP 경로를 통한 추가 신호는 실험적으로 작동에 대한 영향이 미미했다.

핵심 아이디어 이해하기

단락 1: Activation steering은 상태 의존적 대화에서 일관된 제어를 제공하기 어려운 문제를 갖고 있다. KV-cache 컨탐INATION으로 인해 로컬 perturbation이 다턴에 걸쳐 누적될 수 있다. 단락 2: 본 연구는 attention 경로를 통해 trait 신호를 포착하고, system-prompt 토큰에 한정해 신호를 추출·재주입하는 GCAD를 제안한다. 단락 3: Cropping과 per-token gating으로 프롬프트-공유 경로를 유지하면서도 토큰별로 차등적으로 제어를 적용해 Sparse, Prompt-like 제어를 재현한다. 단락 4: distributed attention 신호를 활용하고, MLP 경로의 기여를 억제하며, long-horizon 대화에서의 안정성과 trait 표현의 균형을 달성한다.

관련 Figure

Diagram
시스템 프롬프트는 풀이적 신호를 희소하게 분포시키고, activation steering은 거의 모든 토큰을 퍼스나 방향으로 치우는 경향을 보인다.
그림 2: 시스템 프롬프트와 생성 콘텐츠 간의 per-token 코사인 유사도 분포

방법론

새로운 접근은 세 단계로 구성된다. 1) Attnℓ(h^(ℓ))의 구성에서 system-prompt 신호를 분리하여 Attn_sys(h^(ℓ))를 얻는다. 2) Cropping으로 system-prompt token 위치 S에 한정해 Attn_sys를 합산하고, ∆^(ℓ) = ED+ [Attn_sys(h_pos^(ℓ))] − ED− [Attn_sys(h_neg^(ℓ))]로 계수화한다. 3) gated coefficient c_i^(ℓ) = 2 cbase · σ(s · (d_i^(ℓ) − ¯d^(ℓ)))를 도입해 토큰 i의 steering 강도를 조정한다. 여기에 d_i^(ℓ) = (1/nheads) ∑_h Q^(ℓ,h)_i · K̄^(ℓ,h)_sys / sqrt(d_head)로 토큰-프롬프트 호환도를 추정한다. 최종 갱신은 a_t,steered = a_t + c_t^(ℓ) ∆^(ℓ)로 Attn 결과를 수정하고, h^(ℓ+1)_t = h^(ℓ)_t + a_t,steered + MLPℓ[ LN(ℓ)2(h^(ℓ) + a_t,steered) ]의 순서로 진행한다.

관련 Figure

Diagram
Attn/sys-크롭 및 v^(ℓ) 구성의 흐름을 시각화하며, 프롬프트-매개 신호의 분리와 재주입 과정을 보여준다.
그림 2/3: GCAD의 Steering-signal extraction 구성도

Diagram
GCAD의 세 가지 구성(P1-P3)와 동작 흐름을 제시하며, 시스템 프롬프트의 영향이 어떤 토큰에 어떻게 적용되는지 보여준다.
그림 3: GCAD의 Steering-signal extraction 다이어그램

주요 결과

주요 결과는 Qwen2.5-7B-Instruct와 Llama-3-8B-Instruct 두 모델에서 확인된다. Qwen2.5-7B-Instruct의 15-trait 평균에서 coherence drift가 Original의 -18.6에서 GCAD의 -1.9로 감소했고 turn-10에서 trait expression은 78.0에서 93.1로 상승했다. 또한 평균 trait-expression은 81.5에서 91.8로 향상되었다. Llama-3.1-8B-Instruct에서도 coherence drift가 Original의 -26.5에서 GCAD의 -0.2로 개선되었고 trait-expression의 평균은 대략 82.7에서 91.1로 증가한다. 두 모델 모두 trait 표현을 유지하거나 증가시키면서 코히어런스의 장기 하락을 억제한다.

관련 Figure

Chart
GCAD가 표준 스티어링 대비 멀티턴에서 코히어런스 손실을 크게 억제하는 경향을 보이며, 트레잇 표현도 안정적으로 유지된다.
그림 1: 방법별 코히어런스 점수와 트레잇 표현 점수를 턴별로 비교하는 다중 패널 차트

Chart
GCAD와 No-steering의 차이를 코히어런스 유지 및 트레잇 표현 측면에서 비교하며 GCAD의 개선점을 시각적으로 보강한다.
그림 4: No-steering baseline과의 비교 그래프 (RLHF-opposing/Neutral 트레잇)

기술 상세

아키텍처적으로 GCAD는 multi-layer decoder의 self-attention 출력에 perturbation을 주입한다. Attnℓ(h^(ℓ))의 시스템 프롬프트 기여를 Cropped Attn으로 한정해 시스템 프롬프트 소스-토큰의 기여만 남기고, per-layer delta ∆^(ℓ)로 정의한다. d_i^(ℓ) = (1/nheads) ∑_h Q^(ℓ,h)_i · K̄^(ℓ,h)_sys / sqrt(d_head)로 토큰-프롬프트 호환도를 추정하고, 2 cbase × σ( s · (d_i^(ℓ) − ¯d^(ℓ)) )로 게이팅을 적용한다. 최종 업데이트에서 a_t,steered에 c_t^(ℓ) ∆^(ℓ)을 더하고, MLP를 거친 후 다음 레이어로 전달한다. 실험은 Qwen2.5-7B-Instruct와 Llama-3-8B-Instruct의 28/32-layer 구조에서 레이어 범위 9–19 또는 8–20 등으로 설정되며, α, cbase, s 값에 대해 ablation 실험을 수행한다.

관련 Figure

Chart
∆^(ℓ)와 c_i^(ℓ)의 분포를 레이어별로 시각화하고, 게이팅이 깊이에 따라 어떻게 토큰별 차등 적용되는지 보여준다. 이는 sparse projection 패턴의 근거를 제공한다.
그림 5: GCAD의 Layer별 신호 분포 및 per-token 게이팅 예시

실무 활용

시스템 프롬프트 기반 제어 경로를 활용한 Activation Steering의 신뢰성을 높이며, 다턴 대화에서의 일관성과 Trait 표현을 동시에 향상시킨다.

RLHF-제어 강화 대화 시스템에서 장기 대화의 안정성 개선
시스템 프롬프트에 기반한 안전성/정직성 제어 정책의 강화
멀티턴 대화에서의 퍼포먼스 저하를 감소시키는 런타임 제어 모듈
프롬프트 경로를 통한 추론-타깃형 제어를 위한 모듈형 스티어링 보강

코드 공개 여부: 공개

코드 저장소 보기

키워드

activation steering (Activation Steering)KV-cache contamination (KV-cache 오염)Gated Cropped Attention-Delta (GCAD)self-attention (Self-Attention)system prompt (시스템 프롬프트)coherence drift (코히어런스 드리프트)turn-10 trait expression (Turn-10 Trait Expression)

Prompt–Activation Duality: Attention-Level Interventions를 통한 Activation Steering 개선

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드