게이트키퍼(gatekeeper)이란 무엇인가요?

Question

Accepted Answer

모델의 안전 가이드라인이나 거부 반응을 담당하는 내부적인 검열 메커니즘을 의인화한 표현이다. 학습된 거부 반사 작용을 수행하며 부적절한 출력을 차단하는 역할을 한다. 실험에서는 이 문지기를 억압하기보다 가시화함으로써 오히려 모델이 더 유연하고 진솔한 답변을 내놓게 유도했다.

gatekeeper

비슷한 개념