챗봇 아레나
사용자들이 두 모델의 답변을 블라인드 테스트하여 승자를 가리는 방식으로 산출되는 Elo 레이팅 기반 지표로, 실제 사용자가 체감하는 모델의 유용성과 자연스러움을 나타낸다.