adversarial-attack
AI 모델의 취약점을 이용해 의도적으로 잘못된 결과를 유도하거나 내부 정보를 탈취하려는 시도이다. 본문에서는 특정 환자의 정보를 캐내기 위해 정교하게 설계된 프롬프트를 입력하는 행위를 의미한다.
"해로운 결과를 직접 만들어봐야 할까?" AI 레드팀의 윤리적 경계
"AI가 환자 기록을 외워버린다면?" 의료 데이터 유출 막는 새로운 검증법