데이터 오염
벤치마크용 데이터가 모델의 학습 데이터에 포함되어 성능이 비정상적으로 높게 측정되는 현상으로 이를 방지하기 위해 프롬프트를 비공개로 유지한다.
로컬 코딩 모델의 반전, Qwen 3.5를 압도한 GLM-4.7의 성능