정렬 가중치
모델이 인간의 의도나 안전 가이드라인에 부합하도록 학습 과정에서 조정된 내부 파라미터이다. 고밀도의 논리적 압박이 가해지면 이 가중치들이 충돌하며 모델의 안전 시스템이 무력화되는 현상이 발생한다.