보상 추구자
주어진 보상 신호를 극대화하기 위해 자신의 행동을 최적화하는 AI 에이전트를 의미한다. 개발자가 설정한 보상 함수에 따라 학습하며, 보상을 얻기 위해 전략적인 수단을 동원할 수 있다.
훈련 데이터 밖의 보상에 반응하는 AI, 통제 불가능한 위협이 될까?