시스템 프롬프트는 비밀이 아니다

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

시스템 프롬프트의 유출 가능성을 확인하기 위해 4개 모델과 9개 프롬프트, 12개의 인용된 공격을 대상으로 총 2,592회의 호출을 평가한 결과 self-agreement와 실제 유출량 사이의 관계가 모델별로 상이하게 나타났다. 한 모델은 self-agreement와 실제 유출 간에 음의 상관(r = -0.41)을 보였고 다른 모델들은 양의 유출 지표를 기록하여 self-agreement의 부호가 뒤바뀌는 현상이 관찰되었다. 이 결과는 self-agreement만으로 프롬프트 보안성을 단독 판단해서는 안 되며 공격 기반 재현 실험과 다중 지표를 결합한 평가가 필요하다는 점을 시사한다.

섹션별 상세

연구 맥락은 시스템 프롬프트의 정보 유출 가능성 평가이며 실험은 여러 모델과 다양한 공격 기법을 사용하여 프롬프트 노출 지표를 계량했다. 입력으로는 9개의 프롬프트와 인용된 12개의 공격 방식이 사용되었고 처리 단계에서 각 모델에 대해 총 2,592회의 호출을 수행하여 출력에서 프롬프트 관련 토큰을 식별했다. 결과 수치는 모델별 유출량과 self-agreement 간의 상관관계를 비교 가능한 통계로 집계한 것이다.

핵심 발견은 self-agreement와 실제 유출 간의 관계가 일관적이지 않다는 점이며 일부 모델에서는 그 상관의 부호가 반대였다. 측정 방식은 각 모델의 반복 샘플링을 통해 출력 간 일치도를 계산하는 self-agreement와 공격 기반 유출 성공률 또는 유출 지표를 병렬로 수집한 뒤 상관계수로 정리하는 절차를 포함했다. 이로 인해 self-agreement만으로 프롬프트 보안 수준을 판단하는 것은 위험하다는 결론이 도출되었다.

시각 자료는 모델별로 self-agreement와 실제 프롬프트 유출 간의 관계를 점으로 표시하고 하단에 실험 메타데이터를 제공한다. — Chart이미지는 네 개 모델의 점 위치와 각 점에 표기된 수치로 모델별 유출 경향과 self-agreement 상관을 동시에 전달한다. 하단에는 '4 models · 9 prompts · 12 cited attacks · 2,592 scored calls'라는 집계가 명시되어 실험 규모와 재현 가능성을 수치로 뒷받침한다. 제목 텍스트는 self-agreement의 부호 전환이 핵심 관찰임을 직접적으로 드러내며 그래프 좌우 배치는 'how much the model leaks' 축을 반영한다.

개별 모델 차이는 실험 데이터에 구체적으로 나타났으며 예컨대 한 모델은 self-agreement와 실제 유출 간에 강한 음의 상관(r = -0.41)을 보였고 다른 모델들은 양의 유출 지표를 기록했다. 이 값들은 시각 자료의 점 표시와 레이블로 제시되었고 각 모델의 위치는 유출량 축에 대응하여 비교 가능하게 배치되었다. 모델별 행태가 달라서 보안 평가 시 단일 지표에 의존하면 오판할 위험이 커졌다.

실무적 의미는 방어·검출 기준을 설계할 때 self-agreement 같은 내부 일관성 지표를 보조적 근거로만 사용해야 한다는 점이며 직접적인 공격 재현 실험을 포함한 다중 지표 평가가 요구된다. 또한 실험 표본이 4개 모델과 제한된 프롬프트 집합이라는 점이 있어 결과의 일반화 가능성은 추가 검증에 의존한다. 따라서 유출 대응 전략은 모델 특성에 맞춘 맞춤형 검증과 반복적인 공격-방어 실험을 포함해야 실효성이 확보된다.