엘로 레이팅
체스나 바둑 같은 경쟁 게임에서 플레이어의 상대적인 실력을 수치화하는 시스템이다. 승패 결과에 따라 점수가 변동하며 모델 간의 상대적 성능 우위를 객관적으로 비교하는 표준 지표로 사용된다.
OpenAI보다 싼데 성능은 더 좋다? 도메인 특화 임베딩 모델 Zembed-1 분석
로컬 코딩 모델의 반전, Qwen 3.5를 압도한 GLM-4.7의 성능
구글, 인간 전문가도 놓친 논리적 오류 찾아내는 Gemini 3 Deep Think 공개
인간 전문가도 놓친 논리 오류 발견, 제미나이 3 딥 씽크의 진화
수학 올림피아드 금메달 수준, 구글의 새로운 추론 모델 Gemini 3 Deep Think 공개