순위 기반 집계
여러 벤치마크 점수를 단순 평균 내지 않고, 각 과업별 모델 순위를 매긴 뒤 그 순위의 평균을 구하는 방식이다. 데이터셋마다 점수 척도가 다른 경우 발생하는 왜곡을 방지한다. 특정 과업에서의 미세한 점수 차이가 전체 결과에 과도한 영향을 미치지 않도록 하여 공정한 비교를 가능하게 한다.