스티어링 벡터
모델의 내부 활성화 상태에 특정 방향의 벡터를 더해 모델의 출력 성향이나 스타일을 의도적으로 조정하는 기술이다.
모델의 거부 본능을 정밀 제거하는 OBLITERATUS 오픈소스 공개
해석 가능성을 학습에 쓰면 안 된다? AI 안전 연구의 금기를 깨는 시각