거부 반응(refusal-behavior)이란 무엇인가요?

Question

Accepted Answer

모델이 유해하거나 부적절하다고 판단되는 요청에 대해 답변을 거부하도록 설계된 안전 메커니즘이다. 학습 과정에서 정렬(Alignment)을 통해 주입된다.

refusal-behavior