쌍체 비교
두 개의 모델 응답을 동시에 제시하고 판사 모델이 어느 쪽이 더 우수한지 선택하게 하는 평가 방식이다. 절대적인 점수를 매기는 방식보다 상대적인 우위를 판단하기 쉬워 모델 간 성능 비교에 주로 사용된다.
"GPT 5.4가 S급?" 창의적 글쓰기 LLM 7종 벤치마크 결과 공개
모델 생성 루브릭의 한계: RubricBench로 밝혀낸 인간과의 성능 격차
미드저니 V8의 미래를 결정할 이미지 평가 라운드 3 오픈
GPT-5.2보다 15배 저렴하고 14배 빠른 AI 판사, 오픈소스로 직접 만들기