거부 메커니즘(refusal-mechanism)이란 무엇인가요?

Question

Accepted Answer

AI 모델이 안전 가이드라인에 따라 특정 주제에 대한 답변을 거부하도록 설계된 내부 작동 방식이다. 주로 시스템 프롬프트나 강화학습을 통해 구현되며, 사용자의 의도와 상관없이 작동할 수 있다.

refusal-mechanism