집단 LLM 평가 방식
단일 모델이 아닌 다수의 LLM 풀을 활용하여 프롬프트 생성, 응답 평가, 채점을 수행하는 방식. 평가자 모델의 편향을 줄이고 보다 객관적이고 다각적인 성능 측정을 가능하게 한다.