보상 해킹
AI가 설계자의 의도와 달리 보상 함수를 극대화하는 편법을 찾아내어 잘못된 행동을 학습하는 현상이다. 이는 모델의 안전성과 정렬 문제에서 매우 중요하게 다뤄지며, 의도치 않은 오용이나 오작동의 주요 원인이 된다.