bimodal-distribution
데이터 분포에서 정점이 두 개 나타나는 현상이다. LLM 평가에서는 특정 답변에 대해 판사들의 견해가 두 그룹으로 극명하게 갈릴 때 발생한다.
"판사가 피고보다 변동성이 크다?" LLM 평가의 치명적 함정