krippendorff-alpha
여러 평가자 간의 합의 수준을 측정하는 통계적 지표이다. 데이터의 종류에 상관없이 적용 가능하며, 평가자들 사이의 신뢰도를 정량화하는 데 사용된다.
판사가 모델보다 더 튄다? LLM 평가의 캘리브레이션 함정
"질문 답변율 12% 상승" Stack Overflow가 LLM을 도입한 구체적 방법