모록의 거래
경쟁적인 환경에서 단기적인 성과(참여도, 매출 등)를 최적화하기 위해 장기적인 가치나 윤리적 정렬(정확성, 안전성)을 희생하게 되는 현상을 비유한 용어이다. AI 학습 과정에서 보상 함수 설정의 위험성을 경고한다.