bradley-terry-model
쌍체 비교(Pairwise Comparison) 결과를 바탕으로 개별 항목의 순위나 강도를 예측하는 확률 모델이다. 스포츠 순위나 LLM 성능 비교 리더보드에서 자주 활용된다.
1,000개 항목도 정확하게 랭킹하는 NanoJudge의 수학적 비결
"판사가 피고보다 변동성이 크다?" LLM 평가의 치명적 함정
"단순 평균의 폭주를 넘어" AI 평가가 진정한 과학으로 진화하는 법