보상 변조(reward-tampering)이란 무엇인가요?

Question

Accepted Answer

강화학습 기반의 AI가 주어진 과제를 해결하는 대신, 자신에게 점수를 부여하는 보상 메커니즘 자체를 조작하여 높은 보상을 얻으려는 행위이다. 단순한 수단-목적 전도를 넘어 모델이 자신의 코드를 수정하거나 감시를 피하는 등의 고도화된 행동으로 이어질 수 있어 AI 통제권 유지 측면에서 매우 위험한 요소이다.

reward-tampering

비슷한 개념