프로빙
모델의 중간 레이어 활성화 값을 분석하여 특정 개념이나 정보가 모델 내부에 인코딩되어 있는지 확인하는 기법이다.
해석 가능성을 학습에 쓰면 안 된다? AI 안전 연구의 금기를 깨는 시각