안전 뉴런
LLM 내부의 수많은 뉴런 중 유해성 탐지나 안전 가이드라인 준수와 관련된 정보에 특히 민감하게 반응하는 특정 뉴런들을 의미한다. 이 논문에서는 선형 프로빙을 통해 각 레이어에서 유해성 분류 성능이 높은 뉴런들을 식별하여 이 용어로 정의했다.