리스크 회피 보상 설계
핵심은 조건부로 성공에서 실패로의 전이를 억제하는 비대칭 보상으로, 'correct → incorrect' 전이를 페널티화하여 기존 올바른 행동의 보존을 강화한다.