대조 쌍
특정 행동을 유도하기 위해 의도적으로 구성된 긍정적 예시와 부정적 예시의 데이터 쌍이다. Steering 벡터를 추출하기 위해 동일한 질문에 대해 모델이 보여주길 원하는 답변과 피해야 할 답변을 대조하여 모델 내부 레이어의 활성화 값 차이를 계산하는 데 사용된다. 이 차이값이 곧 모델을 특정 방향으로 유도하는 Steering 벡터의 기초가 된다.