거부 메커니즘
AI 모델이 안전 가이드라인에 따라 특정 주제에 대한 답변을 거부하도록 설계된 내부 작동 방식이다. 주로 시스템 프롬프트나 강화학습을 통해 구현되며, 사용자의 의도와 상관없이 작동할 수 있다.