거부 회로
LLM 내부에서 부적절한 요청을 식별하고 답변을 거부하도록 설계된 신경망 경로이다. 이 게시물에서는 추론 과정(CoT)과 최종 답변 생성 단계에 각각 별도의 거부 회로가 존재할 수 있음을 시사한다.