LMSYS 챗봇 아레나
사용자가 두 개의 익명 모델과 대화한 후 더 나은 답변을 선택하는 방식으로 순위를 매기는 플랫폼입니다. 실제 사용자 경험을 반영한 엘로(Elo) 등급 시스템을 통해 모델의 실질적인 성능을 평가합니다.
LLM 성능 한눈에 비교: 벤치마크 데이터 JSON API 공개