멤버십 추론
특정 데이터가 모델의 학습 데이터셋에 포함되었는지 여부를 판별하려는 공격 기법이다. 합성 데이터의 경우, 원본 데이터의 개인정보가 얼마나 잘 보호되고 있는지 측정하는 지표로 사용된다.
힌글리시 데이터의 늪, 통계적 합성 방식은 LLM 학습에 유효할까?