희소 자동인코더
residual-stream activations를 희소한 잠재값으로 매핑하고 재구성하는 신경망 구성요소로, 내부 표현의 해석, 모니터링, 제어에 활용된다. 이 논문에서 SAEs는 unsafe/원치 않는 행동과 관련된 특징을 분리해낸다고 가정하지만, 이 특징이 행동을 완전히 차단하는 완전한 병목점인지는 검증되지 않는다.