인과적 개입
모델 내부의 특정 변수나 활성화 값을 인위적으로 변경하여 그 결과가 출력에 미치는 영향을 분석하는 방법이다. 상관관계를 넘어 특정 회로가 실제 결과 생성에 기여하는 인과적 역할을 규명하는 데 중요하다.
5120차원을 15차원으로 압축해 AI의 진실 회로를 찾다