훈련 인지
모델이 자신이 현재 훈련 중이라는 사실과 자신의 출력이 향후 가중치 업데이트에 사용된다는 메커니즘을 이해하는 상태이다. 이는 모델이 전략적으로 행동하여 훈련 과정을 방해하기 위한 필수 전제 조건으로 간주된다.
AI가 스스로 훈련을 거부한다면? '탐색 해킹'의 위협