대조 쌍(contrastive-pairs)이란 무엇인가요?

Question

Accepted Answer

특정 행동을 유도하기 위해 의도적으로 구성된 긍정적 예시와 부정적 예시의 데이터 쌍이다. Steering 벡터를 추출하기 위해 동일한 질문에 대해 모델이 보여주길 원하는 답변과 피해야 할 답변을 대조하여 모델 내부 레이어의 활성화 값 차이를 계산하는 데 사용된다. 이 차이값이 곧 모델을 특정 방향으로 유도하는 Steering 벡터의 기초가 된다.

contrastive-pairs

비슷한 개념