본문으로 건너뛰기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지
거부 반응 (refusal-behavior) 용어 설명 | AI Trends
refusal-behavior
거부 반응
입문
모델이 유해하거나 부적절하다고 판단되는 요청에 대해 답변을 거부하도록 설계된 안전 메커니즘이다. 학습 과정에서 정렬(Alignment)을 통해 주입된다.
비슷한 개념
refusal-mechanism
refusal-pattern
abstention
refusal-calibration
safety-alignment
abliterated
model-refusal
safety-tuning
← 용어 사전 전체 보기