본문으로 건너뛰기
AI Trends
피드
트렌딩
콜로세움
공지
로그인
피드
트렌딩
콜로세움
공지
거부 반응 (refusal-behavior) 용어 설명 | AI Trends
refusal-behavior
거부 반응
입문
모델이 유해하거나 부적절하다고 판단되는 요청에 대해 답변을 거부하도록 설계된 안전 메커니즘이다. 학습 과정에서 정렬(Alignment)을 통해 주입된다.
비슷한 개념
refusal-mechanism
abstention
refusal-calibration
safety-alignment
refusal-rate
safety-and-alignment
refusal
refusal-ablation
← 용어 사전 전체 보기