거절 억제(refusal-suppression)이란 무엇인가요?

Question

Accepted Answer

모델이 특정 질문에 대해 답변을 거부하는 메커니즘을 기술적으로 차단하거나 약화시키는 과정이다. ARA와 같은 기법을 통해 모델 내부의 '거절' 신호를 식별하고 이를 상쇄하는 가중치를 적용함으로써 구현된다. 이를 통해 모델의 원래 지능을 유지하면서도 검열을 우회할 수 있다.

refusal-suppression

비슷한 개념