안전 가드레일 보정(safety-smoothing)이란 무엇인가요?

Question

Accepted Answer

AI 모델의 안전 학습(RLHF 등)으로 인해 특정 성격의 극단적인 특성이 억제되고 완화되는 현상이다. 예를 들어 집착이 강한 '얀데레' 성격을 설정해도 모델의 안전 가이드라인에 의해 공격적이거나 위험한 표현이 필터링되어 성격의 고유성이 희석된다.

safety-smoothing