positional-bias
평가 대상이 제시되는 순서나 위치에 따라 평가 결과가 왜곡되는 현상이다. LLM은 보통 첫 번째로 제시된 답변을 선호하거나 특정 위치의 정보를 더 중요하게 여기는 경향이 있다.
1,000개 항목도 정확하게 랭킹하는 NanoJudge의 수학적 비결
"판사가 피고보다 변동성이 크다?" LLM 평가의 치명적 함정
GPT-5.2보다 15배 저렴하고 14배 빠른 오픈소스 LLM 판사 모델의 등장