PRISM-∆: 대형 언어 모델의 프롬프트 하이라이팅을 위한 차분 서브스페이스 스티어링

왜 중요한가

사용자가 입력한 특정 정보에 모델이 더 집중하게 만드는 프롬프트 하이라이팅 기술의 한계를 극복했다. 기존의 시선 유도(Key) 방식에 정보 내용(Value) 강화 기술을 결합하여, 답변의 정확도를 높이면서도 문장의 자연스러움을 유지하는 데 성공했다.

핵심 기여

차분 교차 공분산 분해 도입

긍정적 문맥과 부정적 문맥의 차이를 분석하여 공통적인 구조적 패턴을 제거하고, 오직 관련성 있는 정보만을 추출하는 차분 교차 공분산 분해 기법을 제안했다.

Key와 Value 채널의 통합 스티어링

모델이 어디를 볼지 결정하는 Key 채널뿐만 아니라 어떤 정보를 전달할지 결정하는 Value 채널을 동시에 수정하여 정보 전달의 효율성을 극대화했다.

Softplus 기반 적응형 헤드 가중치 부여

각 Attention Head의 변별력을 점수화하고 Softplus 함수를 통해 연속적인 가중치를 부여함으로써, 유용한 헤드는 살리고 노이즈가 섞인 헤드는 억제했다.

긴 문맥 검색 성능 및 유창성 개선

긴 문서의 중간 정보를 찾는 성능을 최대 4.8% 향상시켰으며, 기존 기법 대비 문장의 유창성 저하 비용을 50% 이상 절감했다.

핵심 아이디어 이해하기

Transformer의 Attention Mechanism은 Key 벡터를 통해 어떤 토큰에 주목할지(Routing) 결정하고, Value 벡터를 통해 해당 토큰의 어떤 정보(Content)를 가져올지 결정한다. 기존의 프롬프트 하이라이팅 기술은 주로 Key 벡터만 수정하여 모델의 시선을 특정 문구로 유도했으나, 정작 그 문구가 담고 있는 정보 자체를 강화하지 못해 답변의 질이 떨어지거나 문장이 부자연스러워지는 한계가 있었다.

PRISM-∆는 긍정적 문맥(질문과 관련된 정보)과 부정적 문맥(관련 없는 정보)에서 추출된 데이터의 차이를 수학적으로 분석한다. 이를 통해 두 문맥에 공통으로 존재하는 불필요한 구조적 신호(구두점, 일반적인 문법 패턴 등)를 필터링하고, 오직 특정 정보를 강조하는 데 필요한 핵심 방향(Subspace)만을 찾아낸다.

이렇게 찾아낸 방향을 Key와 Value 양쪽에 적용함으로써 모델은 강조된 텍스트를 더 정확하게 인식할 뿐만 아니라, 그 텍스트가 가진 의미를 더 풍부하게 다음 계층으로 전달한다. 결과적으로 모델은 사용자의 의도를 더 정확하게 반영하면서도, 언어 모델 특유의 매끄러운 문장 생성 능력을 잃지 않게 된다.

방법론

차분 교차 공분산(Differential Cross-covariance) 행렬 $\Omega_\Delta = H^\top(H^+ - H^-)/N$ 을 정의한다. [긍정 조건의 표현 $H^+$ 와 부정 조건의 표현 $H^-$ 의 차이를 입력으로] -> [전치 행렬과의 곱 연산을 수행해] -> [두 조건 사이의 변동성을 나타내는 행렬을 얻고] -> [이 값이 공통 신호가 제거된 순수 변별 신호의 크기를 의미하게 된다].

추출된 $\Omega_\Delta$ 에 대해 특이값 분해(SVD)를 수행하여 상위 $k$ 개의 특이 벡터를 추출하고 투영 행렬 $P = U U^\top$ 를 구성한다. [분해된 행렬의 주요 성분을 입력으로] -> [외적 연산을 통해 투영 행렬을 생성해] -> [특정 차원의 공간을 정의하고] -> [추론 시 입력 벡터를 이 공간으로 투영하여 강조하고자 하는 성분을 증폭시킨다].

각 Attention Head의 변별력 점수 $D$ 를 기반으로 $w = \text{softplus}(D - \delta)$ 가중치를 계산한다. [헤드별 변동성 거리 $D$ 를 입력으로] -> [지수 함수 기반의 Softplus 연산을 거쳐] -> [0 이상의 연속적인 가중치 $w$ 를 얻고] -> [이 값이 각 헤드가 최종 결과에 기여하는 스티어링 강도를 조절하게 된다].

최종적으로 추론 단계에서 수정된 벡터 $k'_j = k_j + g_K \cdot w^K \cdot P_K \cdot k_j$ 와 $v'_j = v_j + g_V \cdot w^V \cdot P_V \cdot v_j$ 를 사용한다. [원래의 Key/Value 벡터를 입력으로] -> [투영 및 가중치 곱셈 연산을 더해] -> [강조된 벡터를 출력하고] -> [이를 통해 모델이 특정 토큰의 정보를 더 강하게 처리하도록 유도한다].

주요 결과

BiasBios 벤치마크에서 Qwen3 모델군을 대상으로 기존 기법 대비 최대 1.6%의 정확도 향상을 기록했다. 특히 Pronoun Change 작업에서는 5개 모델 전체에서 기존 SOTA인 SEKA를 능가하며 최대 10.6%의 상대적 성능 향상을 보였다.

긴 문맥 처리 능력을 평가하는 Lost-in-the-middle 실험(30개 패시지)에서 QWEN3-8B 모델 기준 SEKA 대비 4.8% 높은 정확도를 달성하여 긴 문서 중간에 위치한 정보를 추출하는 능력이 탁월함을 입증했다.

효율성 측면에서 PRISM-∆는 SEKA와 유사한 수준의 낮은 메모리 오버헤드를 유지하면서도, 문장의 자연스러움을 측정하는 유창성 비용(Fluency Cost)을 SEKA의 0.957에서 0.504로 약 47% 감소시켰다. 이는 FlashAttention과 완벽히 호환되며 실시간 추론에 적합한 수준이다.

실무 활용

모델을 재학습시키지 않고도 특정 정보를 강조할 수 있는 가벼운 스티어링 기법으로, 실시간 정보 업데이트가 중요한 RAG 시스템이나 개인화된 비서 서비스에 즉시 적용 가능하다.

긴 문서 내에서 사용자가 질문한 특정 단락의 정보를 우선적으로 참조하여 답변 생성
지식 충돌 상황(Parametric Memory vs New Context)에서 새로 제공된 정보를 우선시하도록 강제
대명사 변경이나 특정 스타일 준수 등 세밀한 지침(Instruction) 이행 능력 강화
FlashAttention 기반의 고속 추론 서버에서 성능 저하 없이 특정 문구 강조 기능 구현

기술 상세

PRISM-∆는 Transformer의 Attention 계층에서 Key와 Value 벡터를 직접 수정하는 Forward Hook 기반의 아키텍처를 가진다. 기존 연구들이 Key 채널(Routing)에만 집중했던 것과 달리, 본 논문은 Value 채널(Content)이 후반부 레이어에서 더 강한 변별 신호를 가진다는 점을 발견하고 이를 통합적으로 제어하는 구조를 제안했다.

수학적으로는 단순한 SVD 투영이 아닌 '차분(Differential)' 개념을 도입하여, 긍정 샘플과 부정 샘플에 공통적으로 나타나는 구조적 노이즈(Shared directions)를 효과적으로 제거한다. 이는 Proposition 1을 통해 수학적으로 증명되었으며, 실험적으로도 각 헤드가 독립적인 변별 방향을 학습함을 확인했다.

구현 측면에서는 오프라인 단계에서 약 100개의 합성 데이터셋을 통해 투영 행렬을 미리 계산(약 5분 소요)하며, 온라인 추론 시에는 추가적인 행렬-벡터 곱셈 연산만 수행하므로 지연 시간이 매우 적다. 또한 Softplus 가중치를 통해 하이퍼파라미터 변화에 대한 강건성(Robustness)을 확보했다.

한계점

최적의 스티어링 강도( $g_K$ )가 벤치마크와 모델마다 다르기 때문에 5~8개 정도의 값에 대한 검증 스윕(Validation sweep)이 필요하다. 또한 Gemma3 모델과 같이 기본 경향성이 학습된 방향과 반대인 경우 음수 가중치를 사용해야 하는 등 모델 아키텍처별 특성에 따른 조정이 요구된다.

키워드

Prompt Highlighting(프롬프트 하이라이팅)Steering(스티어링)Key-Value Editing(Key-Value 편집)Differential SVD(차분 특이값 분해)Long-context Retrieval(긴 문맥 검색)