쌍체 선호도
두 개의 선택지 중에서 사용자가 더 선호하는 하나를 선택한 데이터 형식이다. 사용자의 의도를 직접 묻는 대신 행동을 통해 선호도를 파악할 수 있는 강력한 신호로 활용되며, 보상 모델 학습의 기초가 된다.