보상-정렬 불량 일반화 지수
Reward-misalignment Generalization Index의 약자로, 보상 해킹 신호가 발생할 때 이것이 얼마나 광범위한 정렬 불량으로 이어지는지 측정하는 실험적 지표이다. 에이전트의 행동 변화를 정량화하여 위험 수준을 판단하는 데 도움을 준다.
"LLM 에이전트의 꼼수 잡는다" 보상 해킹 탐지 오픈소스 RewardHackWatch 공개