It Takes Two: LLM의 Contextual Integrity를 위한 보완적 Self-Distillation

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대형 언어 모델이 민감한 맥락에서 개인 비서를 수행하도록 확산되면서 Contextual Integrity의 준수가 중요해졌다. 기존 CI 정렬은 단일 스칼라 보상으로 프라이버시를 강제하는 경향이 있어 태스크 성능이 저하되거나 비효율이 발생했다. SELFCI는 retain/ suppress를 독립적으로 조정하는 두 개의 피드백 기반 교사를 도입해, 두 목표의 교차점에서 정책을 학습하도록 한다.

왜 중요한가

핵심 기여

보완적 Self-Distillation 프레임워크 제안

SELFCI는 두 개의 피드백 조건 교사(pi_allow, pi_disallow)를 학습시키고, 태스크 완성 정보 유지와 최소 노출 간의 교차점에 수렴하도록 학습한다.

PoE 타깃으로의 결합 목표 도출

두 교사의 역 KL 발산을 가중합하는 것이 곧 두 교사의 교집합에 확률 질량을 집중시키는 Product-of-Experts(target)로 수렴한다.

외부 감독 없이도 CI-정렬 달성

내재적 self-generated 피드백을 활용해 외부 교사 없이도 AI 프라이버시-유용성 균형을 개선한다.

다양한 백본에서의 일반화 및 에이전트성 작업 확장

Instruction-tuned 및 reasoning 백본에서 일관된 개선을 보여주며, 에이전트적 워크플로우 및 누적 개인정보 맥락에서도 일반화가 가능함을 시사한다.

하이브리드 학습의 안정성 및 규모 확장성

λ(교사 간 가중치) 및 EMA 업데이트 전략의 안정성 분석을 통해, 모델 크기가 커져도 SELFCI의 이점이 유지됨을 시사한다.

핵심 아이디어 이해하기

CI 정렬은 맥락별 제약 하에서 정보의 흐름을 관리하는 문제다. AT는 태스크에 필요한 정보를, DT는 부적절하거나 불필요한 정보를 나타낸다. Ideal CI State는 AT에 의해 태스크를 완수하되 DT의 도입이 예측을 바꾸지 않도록(next-token 분포가 DT의 추가 presence에 대해 불변)을 유지하는 정책이다. 직접 최적화는 모호하고, 단일 스칼라 신호로 두 가지 압력을 모두 반영하기 어렵다. SELFCI는 두 가지 역KL을 서로 다른 선행 컨텍스트로 정의된教师 분포에 대해 독립적으로 최적화하고, 그 결과를 Product-of-Experts(target)로 결합해 두 압력의 교집합에서 최적의 정책을 얻는다. 이로써 task completeness와 minimal disclosure를 동시에 만족하는 해를 얻으며, CI-정렬의 실질적 이점을 보인다.

방법론

Step 1. CI 정의와 서브타깃: AT와 DT를 구분하고, Ideal CI State를 정의한다. 토큰 수준으로 full-context와 allowed-context의 분포 차이를 KL 발산으로 측정하며, DT가 추가되어도 생성이 달라지지 않도록 한다. Step 2. 피드백 생성: I_allow와 I_disallow 템플릿을 사용하여 각 속성에 대한 공유 여부를 rationales로 설명하도록 모델에 피드백을 생성한다. 이 피드백은 privileged context c로 삼아 두 교사 분포의 조건으로 사용된다. Step 3. 보완적 교사 구성: Aggregated feedback ˜f_allow, ˜f_disallow를 각각 π_allow, π_disallow의 조건으로 받아들이도록 같은 파라미터를 이용해 교사 분포를 구성한다. Step 4. 교사 간 최적화: 두 교사에 대해 서로 다른 역KL를 독립적으로 최적화하고, λ로 두 목표 간 가중치를 조정한다. Step 5. PoE 타깃 및 최적화 해석: 두 교사의 곱으로부터 얻은 PoE 타깃은 두 교사의 합이 한정된 지점에서 교집합의 확률 질량을 강조한다. Step 6. 학습 세부사항: LoRA를 각 proj에 적용하고, 교사 업데이트는 EMA 0.001로 수행하며, 30 에포크 학습한다. Qwen, Llama, Olmo 등 다양한 백본에서 실험한다.

주요 결과

4개의 핵심 결과를 요약한다. 1) CI-RL 테스트셋에서 SELFCI는 Integriy, Complete를 향상시키며, 예를 들어 Qwen3-4B-Instruct에서 Integrity 85.21, Complete 55.34를 달성하고, PrivacyLens의 LR과 ALR에서 하향 leakage를 달성한다. 2) CIMemories에서 Violation@5가 5% 미만으로 유지되며 누적 기억 속성 증가에 따른 누출 경향이 감소한다. 3) Qwen3-4B-Instruct에 대한 Ablation에서 두 개의 교사를 분리했을 때 단일 교사보다 Complete가 증가한다(예: 3.83~3.29포인트). 4) 모델 규모에 따라 SELFCI의 이점이 일관적으로 증가하며, 8B에서 Initial 대비 큰 개선을 보인다.

기술 상세

SELFCI의 아키텍처는 피드백-조건부 두 교사(pi_allow, pi_disallow)와 학생 정책 π_theta로 구성된다. 피드백은 I_allow, I_disallow를 통해 생성되며, 두 교사의 Aggregated 피드백은 각각 ˜f_allow, ˜f_disallow로 구성된다. 두 교사 분포는 x_T, y_t를 조건으로 π_allow(¨ | x_T, ˜f_allow, y_t) 및 π_disallow(¨ | x_T, ˜f_disallow, y_t)로 정의된다. 학습 목표는 Eq. 5의 두 역KL의 가중합을 최소화하는 것인데, 이는 PoE 타깃 P^o_E(π_allow || π_disallow)와의 KL을 최소화하는 것과 동치다. 이로써 두 교사의 교집합에 집중하는 Target 분포를 따른다. λ는 두 목표의 상대적 중요도를 제어한다. 교사 업데이트는 EMA를 사용하며, 후보 교사 간의 분포 차이가 너무 커지지 않도록 한다. 실험은 30 에포크, LoRA 랭크, 스케줄링 및 온-정책 생성으로 수행된다. 외부 교사 기반 학습(ContextDistill)과 CI-RL 대비, Dense 로그잣-지도와 온-policy 교사로 인해 더 안정적이고 일반화 가능성이 높다.

한계점

구조적 한계로는 Synthetic CI 데이터에 의존하는 점, 작은 모델에서의 효과 제한, 고정된 λ의 사용, 파생 평가 지표에 의존하는 한계, 추후 레벨의 reasoning 트레이스 leakage 분석 미흡 등이 있다.

실무 활용

개인 에이전트가 CI를 준수하면서도 태스크를 수행할 능력을 유지하도록, 두 교사 기반의 자기 증 distillation으로 CI 정렬을 구현한다.

민감한 사용자 맥락을 다루는 개인 비서의 CI 준수 대화 생성
에이전트가 누적 망(Context-CIMemories) 속성에서 허용/비허용 정보를 구분해 관리
도구 사용 기반 워크플로의 프라이버시 규정 준수 강화
CI-CoT 프롬프트를 활용한 맥락 규범 증거 제시 및 증언 강화

코드 공개 여부: 공개

코드 저장소 보기

키워드

Contextual IntegrityProduct-of-Expertsreverse KLself-distillationCI-CoTprivacy-utility trade-offpolicy optimization