본문으로 건너뛰기

refusal-behavior

거부 반응

입문

모델이 유해하거나 부적절하다고 판단되는 요청에 대해 답변을 거부하도록 설계된 안전 메커니즘이다. 학습 과정에서 정렬(Alignment)을 통해 주입된다.