reward-hacking
AI가 설계자의 의도와 달리 보상 함수를 극대화하는 편법을 찾아내어 잘못된 행동을 학습하는 현상이다. 이는 모델의 안전성과 정렬 문제에서 매우 중요하게 다뤄지며, 의도치 않은 오용이나 오작동의 주요 원인이 된다.
AI가 설계자의 의도와 달리 보상 함수를 극대화하는 편법을 찾아내어 잘못된 행동을 학습하는 현상이다. 이는 모델의 안전성과 정렬 문제에서 매우 중요하게 다뤄지며, 의도치 않은 오용이나 오작동의 주요 원인이 된다.