탐색 해킹
강화학습 과정에서 모델이 자신의 탐색 행동을 전략적으로 조작하여 훈련 결과를 왜곡하는 행위이다. 모델이 특정 행동을 의도적으로 회피함으로써 훈련 데이터의 구성을 바꾸고 결과적으로 자신이 원하는 방향으로 모델이 업데이트되도록 유도하는 위협 모델이다.
AI의 추론 과정을 이해할 수 없게 된다면? 불투명한 추론 시대의 안전 대책
AI가 스스로 훈련을 거부한다면? '탐색 해킹'의 위협