브래들리-테리 모델
쌍체 비교 데이터로부터 개별 항목의 상대적 순위와 강도를 추정하는 통계 모델이다. 이 벤치마크에서는 각 LLM 간의 토론 승패 데이터를 바탕으로 모델별 상대적 실력 수치(BT rating)를 산출하는 데 사용된다.