자연어 오토인코더
LLM의 내부 활성화 벡터를 사람이 읽을 수 있는 텍스트 설명으로 변환하고 다시 복원하는 비지도 학습 구조이다. 활성화 언어화기(AV)와 활성화 재구성기(AR)로 구성되어 모델 내부 상태를 자연어로 병목화하여 해석 가능성을 높인다.