켄달 정확도
두 순위 데이터 간의 일관성을 측정하는 통계적 지표이다. 본 논문에서는 자동화된 VLM 평가기가 매긴 모델들의 순위가 실제 인간 평가자의 순위와 얼마나 유사한지를 검증하는 척도로 활용되어 평가 시스템의 신뢰도를 입증한다.