livecodebench
실시간으로 업데이트되는 코딩 문제를 통해 LLM의 실제 코딩 능력을 평가하는 벤치마크 시스템이다. 학습 데이터 오염 문제를 방지하고 모델의 최신 문제 해결 능력을 측정한다.
체급이 전부가 아니다? Qwen 3.5 27B가 35B를 압도한 벤치마크 결과