본문으로 건너뛰기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지
안전 거부 (safety-refusal) 용어 설명 | AI Trends
safety-refusal
안전 거부
중급
LLM이 안전 정책을 위반하는 요청을 받았을 때 답변을 거부하는 메커니즘. 악성코드 개발자는 이를 역이용하여 보안 스캐너의 분석을 차단한다.
비슷한 개념
prompt-manipulation
malware-analysis
refusal-behavior
refusal-mechanism
model-refusal
refusal-boundaries
adversarial-scan
abstention
← 용어 사전 전체 보기