PASA: 의미 임베딩 공간에서의 원칙적 워터마킹으로 LLM 생성 텍스트의 의미-불변 공격에 강건

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

LLM 생성 텍스트의 출처를 검증하고 추적하는 필요성은 커졌지만, 의미를 보존하는 변형(패러프레이즈 등)에는 토큰 수준 워터마킹이 취약하다. PASA는 latent embedding space의 semantic cluster에 공유 난수를 고정하여 token-수준이 아닌 semantic-level 워터마킹을 구현하고, distortion-free 생성을 보장하며 낮은 FPR에서 강한 탐지 성능을 제공한다. 이로써 여러 모델과 데이터셋에서 의미 보존 공격에 대한 내성을 입증한다.

왜 중요한가

LLM 생성 텍스트의 출처를 검증하고 추적하는 필요성은 커졌지만, 의미를 보존하는 변형(패러프레이즈 등)에는 토큰 수준 워터마킹이 취약하다. PASA는 latent embedding space의 semantic cluster에 공유 난수를 고정하여 token-수준이 아닌 semantic-level 워터마킹을 구현하고, distortion-free 생성을 보장하며 낮은 FPR에서 강한 탐지 성능을 제공한다. 이로써 여러 모델과 데이터셋에서 의미 보존 공격에 대한 내성을 입증한다.

핵심 기여

Semantic-space watermarking으로 워터마크를 삽입

토큰 수준이 아닌 latent semantic embedding space에서 워터마크를 삽입하고, semantic cluster를 기준으로 탐지 통계를 구성해 paraphrase 등 의미-보존 공격에 견고한 탐지성을 달성한다.

Two-stage sampling with overflow를 통한 탐지 최적화

Theorem 2에 따라 detector는 1{f(XT)=vec2num(ζT)} 형태의 검출 규칙을 사용하고, embedding은 두 단계로 구성된 샘플링으로 원래 분포 QXT를 기대값으로 보존하면서 FA를 제어하는 overflow 상태(˜ζ)를 포함한다.

이론적 보증으로 robustness–distortion trade-off 명시

Theorem 1은 MD 오차의 최소값을 D(PXT, QXT)≤ε 하에서 주어진 K(semantic cluster 수)에 대해 정의하고, ε=0인 distortion-free 조건에서 최적 임베딩-검출 쌍의 형태를 제시한다. K 감소 시 robutsness 증가, α 증가 시 MD 감소, ϵ 증가 시 MD 증가를 보인다.

실험적으로 token-level baselines 대비 우수한 성능

Llama-2-13B 및 Mixtral-8×7B에서 KGW, Exp-edit, AWTI, DAWA 등 토큰-단위 방법과 비교 시, T5-Large/T5-XXL 공격 하에서도 ROC-AUC와 TPR@1%FPR에서 우수하거나 동등한 수준의 탐지력을 보이며, paraphrase 공격에서도 강건성을 유지한다.

실험적 품질 및 효율성 유지

생성 품질은 원래 분포에 가까운 상태를 유지하고, PPL은 Unwatermarked 대비 작은 증가에 그친다. 검출 지연 역시 경량화되며, detection 시간은 0.27초로 부분적 비교에서 최저 수준이다.

핵심 아이디어 이해하기

기존의 토큰-수준 워터마킹은 의미-변환(동의어 치환, paraphrasing) 시 해석이 어긋나서 탐지 실패로 이어진다. PASA는 토큰을 직접 다루지 않고 latent embedding space의 semantic clusters로 매핑하고, secret key와 semantic history를 통해 cluster 단위의 공유 난수를 생성한다. Next-token 분포를 ϵ-distorted로두되, ε=0일 때 distortion-free를 보장하고 탐지기 γ(XT, ζT) = 1{f(XT)=vec2num(ζT)}를 통해 누적 점수를 계산한다. 두 단계 샘플링(Gf_t의 클러스터 분포를 기반으로 한 보조 분포 Pζt, 그리고 ζt에 따라 클러스터 내 또는 오버플로우 상태로 토큰 샘플링)을 통해서, semantic invariance를 유지하며 원래 분포의 기대값을 보존한다.

방법론

단계별 요약 (1) G0: LLM NTP 분포 Qt를 f에 의해 K개의 의미 클러스터 분포 Qf_t(k)로 매핑한다. Qf_t(k)=∑x: f(x)=k Qt(x). (2) G2: 보조 분포 Pζt를 구성한다. Pζt(k)=min{Qf_t(k), α}로 각 클러스터에 대한 확률을 제한하고, 남은 질량은 overflow 상태 ˜ζ로 누적한다. 이로써 FA를 α 이하로 제어한다. (3) G3: seedt = PRF(key, {f(xj)}t−1j=max{t−w,1})로 보조 시퀀스 ζt를 샘플링한다. 공유 키를 통해 탐지에서 재생 가능하다. (4) G4: In-Cluster Sampling. ζt=k이면 Xt를 f(x)=k인 토큰으로 재정규화 샘플링하고, ζt=˜ζ이면 overflow 질량에 비례하도록 샘플링한다. 기대값으로 Qt를 유지한다: Eζt[PXt|xt−1,ζt]=Qt. (5) 탐지 측면: D0-D3 절차를 통해 근사 NTP 분포를 재구성하고, f(XT)와 ζt의 일치 여부에 따라 점수를 누적하여 탐지한다. 이때 SLM은 감시용 근사 모델로 사용되며, 프롬프트 포함 여부에 따른 실험도 수행된다.

주요 결과

주요 벤치마크 및 수치

Clean Text에서 PASA는 Llama-2-13B 및 Mixtral-8×7B에서 거의 완벽한 탐지 성능을 달성했다. 예를 들어 Llama-2-13B의 Ours 설정은 ROC-AUC=1.0000, TPR@1%FPR=1.0000, TPR@10%FPR=1.0000이다. NTP 분포를 보존하므로 텍스트 품질은 크게 저하되지 않았다.
Token Replacement 공격(T5-Large, T5-XXL) 하에서의 성능은 Llama-2-13B: ROC-AUC=0.9392, TPR@1%FPR=0.9296, TPR@10%FPR=0.9899; Mistral-8×7B: ROC-AUC=0.9222, TPR@1%FPR=0.7650, TPR@10%FPR=0.8600; Ours가 토큰-레벨 베이스라인들을 상회한다.
DIPPER paraphrasing 공격에 대한 강건성: ORD=0,20,80에 대해 각각 TPR@1%FPR=0.5578,0.5829,0.5879 및 AUROC=0.8776,0.9116,0.8934로 나타났다. Token-level baselines는 ORD가 커질수록 성능이 급격히 하락했다. Ours는 paraphrase에도 가장 높은 TPR@1%FPR 및 AUROC를 유지했다.
ELI5 데이터셋에서의 일반화: LLAMA-13B HF에서 No-attack 시 ROC-AUC=1.0000, TPR@1%FPR=1.0000, TPR@10%FPR=1.0000; T5-Large 공격 시 ROC-AUC=0.9980, TPR@1%FPR=0.9750, TPR@10%FPR=0.9950.
생성 품질 및 속도: PASA의 PPL=11.44로 unwatermarked baseline(12.41)보다 가깝고, DAWA(8.41) 대비 다소 높지만 텍스트 품질 저하가 작다. Detection 시간은 0.27초로 Exp-edit(2.41s)보다 빠르고, DAWA보다 낮다. 생성 시간은 13.35초로 13.56초의 DAWA보다 약간 느리지만 실용적이다.

기술 상세

아키텍처 개요: PASA는 latent embedding space에서 토큰 대신 semantic clusters를 단위로 워터마크를 삽입·검출한다. f: V → [K]를 통해 토큰을 K개의 클러스터로 매핑하고, G2에서 Qf_t를 기반으로 Pζt를 구성해 FA를 제어한다. G3에서 seedt를 생성하고, G4에서 ζt에 따라 Xt를 클러스터 내에서 다시 샘플링한다. 탐지 측면은 D0-D3 절차를 통해 SLM으로 분포를 근사하고, 1{f(xt)=ζt}를 누적해 점수를 합산한다. Distortion-free를 달성하기 위해 Eζt[PXt|xt−1,ζt] = Qt를 유지한다. 이론적으로 Theorem 1은 MD 오차의 하한을 제시하고, Theorem 2는 최적의 임베딩-검출 쌍의 구성을 제공한다.

한계점

Limitations: 지나치게 강한 재작성 또는 워터마크 제거 공격에는 여전히 취약할 수 있으며, short texts에서 탐지가 어렵다. 토크나이저 불일치가 cross-family 전이성에 영향을 줄 수 있어 다수의 경량 탐지기를 운영하는 것이 바람직하다. 또한 탐지 측의 SLM이 원본 모델과 tokenizer 호환성에 크게 의존한다.

실무 활용

semantic-space 기반 워터마킹으로 paraphrase에 강건한 LLM 워터마킹의 실용화를 가능하게 한다.

출처 추적이 필요한 콘텐츠 생태계에서 LLM 생성 텍스트의 provenance를 검증
기업 정책 준수 감사에서 모델 소스 확인 및 위조 방지

코드 공개 여부: 공개

코드 저장소 보기

키워드

watermarking for LLMs (LLM 워터마킹)semantic embedding space (의미 임베딩 공간)latent semantic clustering (잠재 의미 클러스터)shared randomness (공유 난수)secret key (비밀 키)paraphrase robustness (패러프레이즈 강건성)distortion-free generation (왜곡-없는 생성)