TL;DR
Activation Steering의 역추정을 통해 화이트박스 제어와 블랙박스 프롬프트 간의 근본적 차이를 밝힌다. 프롬프트 기반 해석가능성이나 안전성 연구가 Activation Steering의 용이성만으로 평가되어서는 안 되며, 화이트박스와 블랙박스 개입을 구분하는 평가 프로토콜이 필요하다고 제시한다.
왜 중요한가
Activation Steering의 역추정을 통해 화이트박스 제어와 블랙박스 프롬프트 간의 근본적 차이를 밝힌다. 프롬프트 기반 해석가능성이나 안전성 연구가 Activation Steering의 용이성만으로 평가되어서는 안 되며, 화이트박스와 블랙박스 개입을 구분하는 평가 프로토콜이 필요하다고 제시한다.
핵심 기여
Surjectivity 기반 분석
고정된 모델에 대해 Activation Steering이 프롬프트로 재현 가능한지 여부를 surjectivity 관점에서 분석한다. 실험적으로도 discrete prompt의 프롬프트 공간에서 steering된 내부 동작을 동일하게 재현하는 preimage가 거의 존재하지 않음을 보인다.
화이트박스 vs 블랙박스의 명확한 분리
Activation Steering으로 유도된 내부 활성화와 텍스트 프롬프트로 재현되는 내부 활성화는 서로 다른 경로에서 도달하며, 이 둘 사이의 구별이 가능함을 이론적·실험적으로 확인한다.
다양한 LLM에서의 실증 검증
세 가지 널리 사용된 LLM에서 본 현상은 일관되게 관찰되었다. 이는 프롬프트 기반 해석의 일반화된 한계를 시사한다.
평가 프로토콜 제안
화이트박스와 블랙박스 중재를 명확히 분리하는 평가 절차의 필요성을 강조하고, 프롬프트 기반 해석의 한계를 경계하는 지침을 제시한다.
핵심 아이디어 이해하기
,
관련 Figure

이 도식은 본 연구의 핵심 주장인 화이트박스의 Activation Steering과 블랙박스 프롬핑 간의 차이를 시각적으로 뒷받침한다. anchor_key는 core_intuition에 해당한다.
Fig.1은 Prompt Space와 Activation Space의 관계를 3D로 비주얼화하며 steer된 activations가 프롬프트 공간으로부터 어떻게 벗어나는지 보여준다

추가 도식은 steer된 내부 상태가 프롬프트에 의해 재현 불가하다는 근거를 보완한다. anchor_key는 core_intuition에 해당한다.
추가 시각화 이미지로 자연스러운 Activations vs Steered Activations 간의 차이를 나타낸다
방법론
[출발점] Activation Steering은 모델의 Residual stream을 특정 방향으로 조작하여 의도한 동작 변화를 이끈다. 프롬프트를 통해 얻은 Activation들로 구성된 ‘Discrete Prompt Activations’ 공간은 일반적으로 Activation Steering이 제시하는 상태 공간의 부분집합으로 간주된다. [핵심 원리] 어떤 활성화 상태가 특정 프롬프트에 의해 재현될 수 있는지 확인하려면 Forward Pass의 매핑에서 프롬프트 입력으로부터 해당 활성화 상태의 preimage가 존재하는지 확인한다. 이때 Activation Steering으로 얻은 상태는 프롬프트로 생성된 상태의 매니폴드에서 벗어나 있을 확률이 매우 높다. [실험 설계] SipIt 구성요소와 세 가지 LLM에 대해 steer된 활성화와 discrete prompts가 같은 출력/내부 상태를 유도하는지 측정한다. [수학적 관점] ‘preimage 존재 여부’는 forward 함수의 매핑 특성에 의해 결정되며, Steering이 도달하는 내부 상태가 프롬프트의 매니폴드에 거의 존재하지 않는다는 것은 확률적으로 거의 불가능한 경우로 간주된다.
관련 Figure

이 그림은 Test Prompt s와 Steered Response ĝ의 비교 구조를 보여주며, preimage의 부재를 실험으로 보여주는 시각적 근거를 제공한다.
SipIt 구성을 통한 surjectivity 테스트 다이어그램으로 steering과 preimage의 관계를 정리한다

실험 설계의 구체적 흐름을 보여주며, white-box와 black-box 간의 중재를 어떻게 비교하는지 설명한다.
실험 설정 그림으로 s' = {{s_i^o ∘ ĝ_i^N}^N_{i=1} o s} 형태의 사양과 steered activations를 연결한다
주요 결과
주요 결과는 Activation Steering으로 얻은 내부 활성화가 discrete prompt로 재현될 가능성이 거의 없음을 보여준다. 실험은 세 가지 LLM에서 일관되게 나타났고, 자연 상태와 steer 상태 사이의 내적 거리(L2 차이)가 프롬프트로 재현되는 경우에 비해 현저히 크다. 이로써 white-box steerability와 black-box prompting 사이의 형식적 차이가 존재함을 확인한다.
기술 상세
[아키텍처 구성] LLM은 Residual Stream과 내부 Activations로 구성되며, Activation Steering은 r_s, r_g와 같은 방향으로 residual을 조작한다. [수학적 기반] preimage 존재 여부를 forward pass의 매핑으로 정의하고, steer된 활성화가 discrete prompt의 매니폴드에 속하는지 여부를 평가한다. [Prior work 대비 차별점] 활성화 steering의 재현성은 텍스트 프롬프트의 표현으로만 얻어지는 것이 아님을 보이며, 프롬프트 기반 해석의 한계를 수학적으로 분리한다. [구현/학습 세부사항] SipIt 도구를 사용하고, 세 LLM에서 steer 상태와 프롬프트 상태의 매핑을 실험적으로 비교한다. [이론적 분석] 활성화 공간의 기하학적 구조상 프롬프트로 동일한 내부 상태를 재현하기 어려운 경향을 보인다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.