어블레이션
모델의 특정 구성 요소나 뉴런의 기능을 의도적으로 제거하여 해당 요소가 전체 성능이나 특정 행동에 미치는 영향을 파악하는 실험 기법이다.
OpenAI의 철저한 검열도 뚫렸다 새로운 ARA 기법의 충격적 성능
프롬프트 엔지니어링 없이 모델 가중치 수정으로 거부 반응 제거하기
해석 가능성을 학습에 쓰면 안 된다? AI 안전 연구의 금기를 깨는 시각